Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

2 la respuesta

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Estoy usando Spark 1.4.0, esto es lo que tengo hasta ahora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))La ...

1 la respuesta

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...

2 la respuesta

Spark 2.0 falta chispa implícita

Usando Spark 2.0, estoy viendo que es posible convertir un marco de datos de filas en un marco de datos de clases de casos. Cuando trato de hacerlo, recibí un mensaje que indicaba que debía importarspark.implicits._. El problema que tengo es que ...

1 la respuesta

Cómo filtrar datos usando funciones de ventana en spark

Tengo los siguientes datos: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAhora quería filtrar los datos de tal manera que pueda eliminar las filas 6 y 7, para un uid en particular, quiero mantener ...

3 la respuesta

Los marcos de datos de Spark convierten JSON anidado en columnas separadas

Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

9 la respuesta

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...

2 la respuesta

Spark RDD a DataFrame Python

Estoy tratando de convertir el Spark RDD en un DataFrame. He visto la documentación y el ejemplo donde se pasa el esquema asqlContext.CreateDataFrame(rdd,schema) función. Pero tengo 38 columnas o campos y esto aumentará aún más. Si doy ...