Pasar frascos adicionales a Spark mediante envío de chispa
Estoy usando Spark con MongoDB y, en consecuencia, confío en elmongo-hadoop
conductores Tengo las cosas funcionando gracias a la entrada en mi pregunta originalaquí.
Mi trabajo de Spark se está ejecutando, sin embargo, recibo advertencias que no entiendo. Cuando ejecuto este comando
$SPARK_HOME/bin/spark-submit --driver-class-path /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-SNAPSHOT.jar --jars /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-SNAPSHOT.jar my_application.py
funciona, pero me da el siguiente mensaje de advertencia
Advertencia: Jar local /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo- hadoop-spark-1.5.0-SNAPSHOT.jar no existe, omitiendo.
Cuando intentaba hacer que esto funcionara, si dejaba de lado esos caminos al enviar el trabajo, no se ejecutaría en absoluto. Ahora, sin embargo, si dejo esos caminos, se ejecuta
$SPARK_HOME/bin/spark-submit my_application.py
¿Alguien puede explicar qué está pasando aquí? He revisado preguntas similares aquí haciendo referencia a la misma advertencia, y busqué en la documentación.
Al configurar las opciones una vez, ¿se almacenan como variables de entorno o algo así? Me alegro de que funcione, pero desconfío de que no entiendo completamente por qué a veces y no otras.