Instalando Apache PySpark para funcionar com Jupyter Notebook no MacOS

É menos trivial do que parece, mas tão divertido quanto!

Bruno Katekawa
2 min readAug 7, 2020

Passo 01 — Instalar homebrew

Siga as instruções desse post: https://www.chrisjmendez.com/2016/01/10/installing-homebrew-on-mac-os-x/

Passo 02 — Instalar JDK

Abra o terminal do MacOS e execute este comando:

brew cask install java

Verifique se deu tudo certo executando o comando:

brew cask info java

Se o output for o seguinte, então deu tudo certo na instalação do JDK.

java: 14.0.2,12:205943a0976c4ed48cb16f1043c5c647
https://openjdk.java.net/
/usr/local/Caskroom/java/14.0.2,12:205943a0976c4ed48cb16f1043c5c647 (148B)
From: https://github.com/Homebrew/homebrew-cask/blob/HEAD/Casks/java.rb
==> Name
OpenJDK Java Development Kit
==> Artifacts
jdk-14.0.2.jdk -> /Library/Java/JavaVirtualMachines/openjdk-14.0.2.jdk (Generic Artifact)
==> Analytics
install: 16,974 (30 days), 53,147 (90 days), 267,678 (365 days)

Passo 03 — Instale o PySpark

Baixe o pacote pre-built mais atual do Apache Spark no site: http://spark.apache.org/downloads.html

No caso do momento que esse artigo é escrito, a versão mais atual é o spark-3.0.0-bin-hadoop3.2.tgz.

Descompacte o arquivo e mova para a pasta /opt .

tar -xzf spark-3.0.0-bin-hadoop3.2.tgz

mv spark-3.0.0-bin-hadoop3.2 /opt/spark-3.0.0

Crie um link simbólico para a pasta:

ln -s /opt/spark-3.0.0 /opt/spark

Informe ao seu bash (ou zsh, etc.) onde que o Spark será encontrado. Inclua as seguintes linhas no arquivo ~/.bashrc (ou ~/.zshrc ).

export SPARK_HOME=/opt/spark

export PATH=$SPARK_HOME/bin:$PATH

Passo 04 — Instale o Jupyter Notebook

pip install jupyter

Verifique se foi instalado executando o seguinte comando para abrí-lo:

jupyter notebook

Se abriu, então deu tudo certo, agora você já pode fechá-lo clicando no botão "Quit" que fica no canto superior direito.

Passo 05 — Configure o PySpark driver

Inclua as seguintes linhas no arquivo ~/.bashrc (ou ~/.zshrc ).

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

Reinicie o terminal e quando executar o comando:

pyspark

O Jupyter Notebook será aberto com o PySpark rodando e você poderá utilizar todos os pacotes dele nos seus projetos!

--

--

Bruno Katekawa
Bruno Katekawa

Written by Bruno Katekawa

Specialist in designing delightful and memorable experiences. I talk about Design, Business and Entrepreneurship.

No responses yet