Usar SparkSession existente na solicitação POST / lotes
Estou tentando usarLivy
remotamente enviar váriosSpark
empregos. Digamos que eu queira executar os seguintesspark-submit
tarefa remotamente (com todas as opções como tal)
spark-submit \
--class com.company.drivers.JumboBatchPipelineDriver \
--conf spark.driver.cores=1 \
--conf spark.driver.memory=1g \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.serializer='org.apache.spark.serializer.KryoSerializer' \
--conf "spark.executor.extraJavaOptions= -XX:+UseG1GC" \
--master yarn \
--deploy-mode cluster \
/home/hadoop/y2k-shubham/jars/jumbo-batch.jar \
\
--start=2012-12-21 \
--end=2012-12-21 \
--pipeline=db-importer \
--run-spiders
NOTA: As opções após oJAR
(--start
, --end
etc.) são específicos para o meuSpark
inscrição. estou a usarscopt
por esta
Estou ciente de que posso fornecer todas as várias opções acimaspark-submit
comando usandoLivy
POST/batches
solicitação.
Mas desde que eu tenho que fazer mais de 250spark-submit
remotamente, eu gostaria de explorarLivy
érecursos de gerenciamento de sessões; ou seja, eu queroLivy
para criar umSparkSession
uma vez e depois usá-lo para todos os meusspark-submit
solicitações de.
oPOST/sessions
solicitação permite especificar algumas opções para instanciar umSparkSession
remotamente. No entanto, não vejosession
argumento noPOST/batches
solicitação.
Como posso usar oSparkSession
que eu criei usandoPOST/sessions
pedido de envio do meuSpark
trabalho usandoPOST/batches
solicitação?
Mencionei os exemplos a seguir, mas eles apenas demonstram o fornecimento (python
) código paraSpark
trabalho dentroLivy
éPOST
solicitação
pi_app
rssanders3/airflow-spark-operator-plugin
livy/examples