Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?

Estou escrevendo Spark Jobs que conversam com Cassandra no Datastax.

Às vezes, ao trabalhar com uma sequência de etapas em um trabalho do Spark, é mais fácil obter um novo RDD do que ingressar no antigo.

Você pode fazer isso chamando oSparkContext [getOrCreate][1] método.

Agora, algumas vezes, dentro de um trabalho do Spark, há preocupações de que a referência ao SparkContext possa pegar um objeto grande (o Contexto Spark) que não seja serializável e tente distribuí-lo pela rede.

Nesse caso - você está registrando um singleton para essa JVM e, assim, contorna o problema de serialização.

Um dia, meu líder técnico veio até mim e disse:

Não useSparkContext getOrCreate você pode e deve usar junções

Mas ele não deu uma razão.

Minha pergunta é:Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?

questionAnswers(1)

yourAnswerToTheQuestion