Utilice SparkSession existente en la solicitud POST / lotes
Estoy tratando de usarLivy
para enviar remotamente variasSpark
trabajo. Digamos que quiero realizar siguiendospark-submit
tarea remotamente (con todas las opciones como tales)
spark-submit \
--class com.company.drivers.JumboBatchPipelineDriver \
--conf spark.driver.cores=1 \
--conf spark.driver.memory=1g \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.serializer='org.apache.spark.serializer.KryoSerializer' \
--conf "spark.executor.extraJavaOptions= -XX:+UseG1GC" \
--master yarn \
--deploy-mode cluster \
/home/hadoop/y2k-shubham/jars/jumbo-batch.jar \
\
--start=2012-12-21 \
--end=2012-12-21 \
--pipeline=db-importer \
--run-spiders
NOTA: las opciones después de laJAR
(--start
, --end
etc.) son específicos de miSpark
solicitud. Estoy usandoscopt
para est
Soy consciente de que puedo suministrar todas las diversas opciones de arribaspark-submit
comando usandoLivy
POST/batches
solicitu.
Pero ya que tengo que hacer más de 250spark-submit
s de forma remota, me gustaría explotarLivy
's capacidades de gestión de sesión; es decir, quieroLivy
para crear unSparkSession
una vez y luego úsalo para todas misspark-submit
peticiones
LosPOST/sessions
solicitu me permite especificar bastantes opciones para crear instancias deSparkSession
remotamente. Sin embargo, no veosession
argument inPOST/batches
solicitu.
¿Cómo puedo hacer uso de laSparkSession
que creé usandoPOST/sessions
solicitud para enviar miSpark
trabajo usandoPOST/batches
¿solicitud
Me he referido a los siguientes ejemplos, pero solo demuestran el suministro python
) códig paraSpark
trabajo dentro deLivy
'sPOST
solicitu
pi_app
rssanders3/airflow-spark-operator-plugin
livy/examples