Resultados de la búsqueda a petición "spark-dataframe"

4 la respuesta

¿Cómo guardar un DataFrame como CSV comprimido (comprimido)?

Yo uso Spark 1.6.0 y Scala. Quiero guardar un DataFrame como formato CSV comprimido. Esto es lo que tengo hasta ahora (supongo que ya tengodf ysc comoSparkContext): //set the conf to the codec I ...

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

2 la respuesta

Spark 2.0 falta chispa implícita

Usando Spark 2.0, estoy viendo que es posible convertir un marco de datos de filas en un marco de datos de clases de casos. Cuando trato de hacerlo, recibí un mensaje que indicaba que debía importarspark.implicits._. El problema que tengo es que ...

2 la respuesta

Spark RDD a DataFrame Python

Estoy tratando de convertir el Spark RDD en un DataFrame. He visto la documentación y el ejemplo donde se pasa el esquema asqlContext.CreateDataFrame(rdd,schema) función. Pero tengo 38 columnas o campos y esto aumentará aún más. Si doy ...

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

1 la respuesta

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

2 la respuesta

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

2 la respuesta

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Estoy usando Spark 1.4.0, esto es lo que tengo hasta ahora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))La ...