Instalando Apache PySpark para funcionar com Jupyter Notebook no MacOS
É menos trivial do que parece, mas tão divertido quanto!
Passo 01 — Instalar homebrew
Siga as instruções desse post: https://www.chrisjmendez.com/2016/01/10/installing-homebrew-on-mac-os-x/
Passo 02 — Instalar JDK
Abra o terminal do MacOS e execute este comando:
brew cask install java
Verifique se deu tudo certo executando o comando:
brew cask info java
Se o output for o seguinte, então deu tudo certo na instalação do JDK.
java: 14.0.2,12:205943a0976c4ed48cb16f1043c5c647
https://openjdk.java.net/
/usr/local/Caskroom/java/14.0.2,12:205943a0976c4ed48cb16f1043c5c647 (148B)
From: https://github.com/Homebrew/homebrew-cask/blob/HEAD/Casks/java.rb
==> Name
OpenJDK Java Development Kit
==> Artifacts
jdk-14.0.2.jdk -> /Library/Java/JavaVirtualMachines/openjdk-14.0.2.jdk (Generic Artifact)
==> Analytics
install: 16,974 (30 days), 53,147 (90 days), 267,678 (365 days)
Passo 03 — Instale o PySpark
Baixe o pacote pre-built mais atual do Apache Spark no site: http://spark.apache.org/downloads.html
No caso do momento que esse artigo é escrito, a versão mais atual é o spark-3.0.0-bin-hadoop3.2.tgz.
Descompacte o arquivo e mova para a pasta /opt
.
tar -xzf spark-3.0.0-bin-hadoop3.2.tgz
mv spark-3.0.0-bin-hadoop3.2 /opt/spark-3.0.0
Crie um link simbólico para a pasta:
ln -s /opt/spark-3.0.0 /opt/spark
Informe ao seu bash (ou zsh, etc.) onde que o Spark será encontrado. Inclua as seguintes linhas no arquivo ~/.bashrc
(ou ~/.zshrc
).
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
Passo 04 — Instale o Jupyter Notebook
pip install jupyter
Verifique se foi instalado executando o seguinte comando para abrí-lo:
jupyter notebook
Se abriu, então deu tudo certo, agora você já pode fechá-lo clicando no botão "Quit" que fica no canto superior direito.
Passo 05 — Configure o PySpark driver
Inclua as seguintes linhas no arquivo ~/.bashrc
(ou ~/.zshrc
).
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
Reinicie o terminal e quando executar o comando:
pyspark
O Jupyter Notebook será aberto com o PySpark rodando e você poderá utilizar todos os pacotes dele nos seus projetos!