посмотри это
аюсь использоватьLivy
удаленно отправить несколькоSpark
работы, Допустим, я хочу выполнить следующееspark-submit
задание удаленно (со всеми вариантами как-таковыми)
spark-submit \
--class com.company.drivers.JumboBatchPipelineDriver \
--conf spark.driver.cores=1 \
--conf spark.driver.memory=1g \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.serializer='org.apache.spark.serializer.KryoSerializer' \
--conf "spark.executor.extraJavaOptions= -XX:+UseG1GC" \
--master yarn \
--deploy-mode cluster \
/home/hadoop/y2k-shubham/jars/jumbo-batch.jar \
\
--start=2012-12-21 \
--end=2012-12-21 \
--pipeline=db-importer \
--run-spiders
ПРИМЕЧАНИЕ. Параметры послеJAR
(--start
, --end
и т. д.) являются специфичными для моегоSpark
применение. я используюscopt
за это
Я знаю, что могу предоставить все различные варианты вышеspark-submit
использование командыLivy
POST/batches
запрос.
Но так как я должен сделать более 250spark-submit
с удаленно, я хотел бы использоватьLivy
«sвозможности управления сессиями; то есть я хочуLivy
создатьSparkSession
один раз, а затем использовать его для всех моихspark-submit
Запросы.
POST/sessions
запрос позволяет мне указать довольно много вариантов созданияSparkSession
удаленно. Однако я не вижуsession
аргумент вPOST/batches
запрос.
Как я могу использоватьSparkSession
что я создал с помощьюPOST/sessions
запрос на отправку моегоSpark
использование работыPOST/batches
запрос?
Я сослался на следующие примеры, но они демонстрируют только поставку (python
) код заSpark
работа вLivy
«sPOST
запрос
pi_app
rssanders3/airflow-spark-operator-plugin
livy/examples