Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?

Question

Jul 03, 2018, 01:36 PM

Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?

Estou escrevendo Spark Jobs que conversam com Cassandra no Datastax.

Às vezes, ao trabalhar com uma sequência de etapas em um trabalho do Spark, é mais fácil obter um novo RDD do que ingressar no antigo.

Você pode fazer isso chamando oSparkContext [getOrCreate][1] método.

Agora, algumas vezes, dentro de um trabalho do Spark, há preocupações de que a referência ao SparkContext possa pegar um objeto grande (o Contexto Spark) que não seja serializável e tente distribuí-lo pela rede.

Nesse caso - você está registrando um singleton para essa JVM e, assim, contorna o problema de serialização.

Um dia, meu líder técnico veio até mim e disse:

Não useSparkContext getOrCreate você pode e deve usar junções

Mas ele não deu uma razão.

Minha pergunta é:Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?

questionAnswers(1)

Perguntas populares

0 a resposta

Extraindo um elemento específico de cada célula na matriz de células

0 a resposta

Notificação de acessibilidade do IOS em segundo plano

0 a resposta

Comportamento estranho de ggplot2

0 a resposta

O Cython oferece alguma maneira razoavelmente fácil e eficiente de iterar as matrizes Numpy como se fossem planas?

0 a resposta

Como escolho a pasta criada mais recentemente usando o contêiner de loop Foreach no pacote SSI

Você é muito ativo! É ótimo!

Existe um motivo para não usar SparkContext.getOrCreate ao escrever um trabalho de faísca?

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares