Resultados de la búsqueda a petición "spark-dataframe"

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

apache-spark pyspark apache-spark-sql spark-streaming

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

apache-spark scala filter

2 la respuesta

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Estoy usando Spark 1.4.0, esto es lo que tengo hasta ahora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))La ...

apache-spark apache-spark-sql parquet

1 la respuesta

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...

apache-spark scala

2 la respuesta

Spark 2.0 falta chispa implícita

Usando Spark 2.0, estoy viendo que es posible convertir un marco de datos de filas en un marco de datos de clases de casos. Cuando trato de hacerlo, recibí un mensaje que indicaba que debía importarspark.implicits._. El problema que tengo es que ...

apache-spark scala window-functions

1 la respuesta

Cómo filtrar datos usando funciones de ventana en spark

Tengo los siguientes datos: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAhora quería filtrar los datos de tal manera que pueda eliminar las filas 6 y 7, para un uid en particular, quiero mantener ...

apache-spark-sql apache-spark

3 la respuesta

Los marcos de datos de Spark convierten JSON anidado en columnas separadas

Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...

pyspark-sql rdd apache-spark pyspark

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

apache-spark apache-spark-sql

9 la respuesta

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...

apache-spark python pyspark

2 la respuesta

Spark RDD a DataFrame Python

Estoy tratando de convertir el Spark RDD en un DataFrame. He visto la documentación y el ejemplo donde se pasa el esquema asqlContext.CreateDataFrame(rdd,schema) función. Pero tengo 38 columnas o campos y esto aumentará aún más. Si doy ...

Página 3 de 12

1 234 5

Resultados de la búsqueda a petición "spark-dataframe"

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

Cómo guardar / insertar cada DStream en una tabla permanente

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Etiquetas Populares

¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?

Spark 2.0 falta chispa implícita

Cómo filtrar datos usando funciones de ventana en spark

Los marcos de datos de Spark convierten JSON anidado en columnas separadas

Apache spark que trata con declaraciones de casos

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Spark RDD a DataFrame Python

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "spark-dataframe"

Etiquetas Populares