¿Cómo puedo mejorar la parte reducebykey de mi aplicación spark?

Question

May 27, 2016, 09:17 AM

python apache-spark cassandra datastax datastax-enterprise

¿Cómo puedo mejorar la parte reducebykey de mi aplicación spark?

Tengo 64 núcleos de chispa. Tengo más de 80 millones de filas de datos que ascienden a 4,2 GB en mi clúster cassandra. Ahora necesito 82 segundos para procesar estos datos. Quiero que esto se reduzca a 8 segundos. Tiene alguna idea sobre esto? ¿Es esto posible? Gracias.

Esta es la parte de mi aplicación de chispa que quiero mejorar:

axes = sqlContext.read.format("org.apache.spark.sql.cassandra")\
    .options(table="axes", keyspace=source, numPartitions="192").load()\
    .repartition(64*3)\
    .reduceByKey(lambda x,y:x+y,52)\
    .map(lambda x:(x.article,[Row(article=x.article,at=x.at,comments=x.comments,likes=x.likes,reads=x.reads,shares=x.shares)]))\
    .map(lambda x:(x[0],sorted(x[1],key=lambda y:y.at,reverse = False))) \
    .filter(lambda x:len(x[1])>=2) \
    .map(lambda x:x[1][-1])

Editar:

Este es el código que estoy ejecutando actualmente, el publicado anteriormente fue un experimento, perdón por la confusión. La pregunta anterior se relaciona con este código.

axes = sqlContext.read.format("org.apache.spark.sql.cassandra").options(table="axes", keyspace=source).load().repartition(64*3) \
                    .map(lambda x:(x.article,[Row(article=x.article,at=x.at,comments=x.comments,likes=x.likes,reads=x.reads,shares=x.shares)])).reduceByKey(lambda x,y:x+y)\
                    .map(lambda x:(x[0],sorted(x[1],key=lambda y:y.at,reverse = False))) \
                    .filter(lambda x:len(x[1])>=2) \
                    .map(lambda x:x[1][-1])

Gracias

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

El archivo .mp4 no se reproduce en Chrome

0 la respuesta

Cómo enviar DM a todos con un bot - discord.py

0 la respuesta

¿Hay un HtmlUnitDriver para .NET?

0 la respuesta

No hay ganancia de rendimiento después de usar openMP en un programa optimizado para ejecución secuencial

0 la respuesta

a aplicación @ Vue.js funciona en desarrollo pero no monta la plantilla en producción con Rails 5.2.0 / Webpacker: pantalla en blanco sin errores en la consola

¡Eres muy activo! ¡Es genial!

¿Cómo puedo mejorar la parte reducebykey de mi aplicación spark?

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares