¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Question

Feb 15, 2018, 09:01 PM

python pandas apache-spark pyspark spark-dataframe

¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Un novato chispa aquí. Recientemente comencé a jugar con la chispa en mi máquina local en dos núcleos usando el comando.

pyspark - maestro local [2]

Tengo un archivo de texto de 393 Mb que tiene casi un millón de filas. Quería realizar alguna operación de manipulación de datos. Estoy usando las funciones integradas de Dataframe de Pyspark para realizar operaciones simples como groupBy, sum, max. stddev.

Sin embargo, cuando hago exactamente las mismas operaciones en pandas en el mismo conjunto de datos, parece que los pandas derrotan a pyspark por un amplio margen en términos de latencia.

Me preguntaba cuál podría ser una posible razón para esto. Tengo un par de pensamientos

¿Las funciones integradas hacen el proceso de serialización / deserialización de manera ineficiente? En caso afirmativo, ¿cuáles son las alternativas a ellos?¿Es el conjunto de datos demasiado pequeño que no puede superar el costo general de la JVM subyacente en la que se ejecuta la chispa?

Gracias por mirar. Muy apreciado

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

Usando MySQL 5, Proveedor de membresía simple, ASP.NET MVC4 con Entity Framework 5

0 la respuesta

Heredar variable estática de la clase abstracta

0 la respuesta

¿Cómo convertir ícono a png con transparencia alfa en delphi?

0 la respuesta

¿Cómo agregar un archivo XML y leer el par de valores clave en un diccionario? [duplicar]

0 la respuesta

Cómo agregar nodos programados en ciertas ubicaciones en el archivo de configuración xml

¡Eres muy activo! ¡Es genial!

¿Por qué Apache-Spark - Python es tan lento localmente en comparación con los pandas?

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares