¿Hay alguna razón para no usar SparkContext.getOrCreate al escribir un trabajo de chispa?
Estoy escribiendo Spark Jobs que hablan con Cassandra en Datastax.
veces, cuando se trabaja a través de una secuencia de pasos en un trabajo de Spark, es más fácil obtener un nuevo RDD en lugar de unirse al anterior.
Puedes hacer esto llamando aSparkContext [getOrCreate][1]
método.
A veces hay preocupaciones dentro de un trabajo de Spark de que al referirse al SparkContext puede tomar un objeto grande (el contexto de Spark) que no es serializable e intentar distribuirlo a través de la red.
n este caso, está registrando un singleton para esa JVM, y así se soluciona el problema de la serialización.
Un día, mi líder tecnológico vino a mí y dijo
No usesSparkContext getOrCreate
puedes y debes usar combinaciones en su lugar
Pero no dio una razón.
Mi pregunta es: ¿Hay alguna razón para no usar SparkContext.getOrCreate al escribir un trabajo de chispa?