Como executar transformações independentes em paralelo usando o PySpark?

Question

Jun 27, 2016, 09:23 AM

python-multiprocessing apache-spark-sql pyspark apache-spark python-2.7

Como executar transformações independentes em paralelo usando o PySpark?

Estou tentando executar 2 funções fazendo transformações completamente independentes em um único RDD em paralelo usando o PySpark. Quais são alguns métodos para fazer o mesmo?

def doXTransforms(sampleRDD):
    (X transforms)

def doYTransforms(sampleRDD):
    (Y Transforms)

if __name__ == "__main__":
    sc = SparkContext(appName="parallelTransforms")
    sqlContext = SQLContext(sc)
    hive_context = HiveContext(sc)

    rows_rdd = hive_context.sql("select * from tables.X_table")

    p1 = Process(target=doXTransforms , args=(rows_rdd,))
    p1.start()
    p2 = Process(target=doYTransforms, args=(rows_rdd,))  
    p2.start()
    p1.join()
    p2.join()
    sc.stop()

Isso não funciona e agora entendo que isso não funcionará. Mas existe alguma maneira alternativa de fazer isso funcionar? Especificamente, existem soluções específicas para python-spark?

questionAnswers(1)

Perguntas populares

0 a resposta

check retém a contagem

0 a resposta

A recuperação do nome e sobrenome dos contatos do Android resulta em '1' e 'null'

0 a resposta

O cookie CORS com campo de domínio é definido apenas no Firefox usando jQuery AJAX

0 a resposta

Em que ponto a desreferenciação do ponteiro nulo se torna um comportamento indefinid

0 a resposta

Como detectar se o aplicativo do telefone está disponível para vários dispositivos usando o iphone os

Você é muito ativo! É ótimo!

Como executar transformações independentes em paralelo usando o PySpark?

questionAnswers(1)

yourAnswerToTheQuestion

Perguntas populares