Como executar várias instâncias do Spark 2.0 de uma vez (em vários notebooks Jupyter)?

Question

Feb 06, 2017, 11:41 PM

jupyter-notebook apache-spark-2.0 derby pyspark

Como executar várias instâncias do Spark 2.0 de uma vez (em vários notebooks Jupyter)?

Eu tenho um script que convenientemente me permite usar o Spark em um Notebook Jupyter. Isso é ótimo, exceto quando executo comandos spark em um segundo notebook (por exemplo, para testar algum trabalho de rascunho).

Recebo uma mensagem de erro muito longa, cujas partes principais parecem ser:

Py4JJavaError: ocorreu um erro ao chamar o31.json. : java.lang.RuntimeException: java.lang.RuntimeException: Não foi possível instanciar org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient`

. . .

Causado por: ERRO XSDB6: Outra instância do Derby já pode ter inicializado o banco de dados / metastore_db

O problema parece ser que eu posso executar apenas uma instância do Spark por vez.

Como posso configurar o Spark para executar em vários notebooks de uma só vez?