Resultados de la búsqueda a petición "spark-dataframe"

Tengo una secuencia de JSON con la siguiente estructura que se convierte en marco de datos { "a": 3936, "b": 123, "c": "34", "attributes": { "d": "146", "e": "12", "f": "23" } }El marco de datos muestra resultados de funciones en la siguiente ...

apache-spark apache-spark-sql

9 la respuesta

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Quiero sobrescribir particiones específicas en lugar de todas en chispa. Estoy intentando el siguiente comando: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')donde df es un marco de datos que tiene los datos ...

apache-spark pyspark python

5 la respuesta

Convierta la columna Spark DataFrame a la lista de Python

Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = ...

apache-spark-sql hadoop scala apache-spark

3 la respuesta

Lea desde una tabla de colmena y escríbale usando spark sql

Estoy leyendo una tabla de Hive usando Spark SQL y asignándola a un scala val val x = sqlContext.sql("select * from some_table")Luego estoy procesando un poco con el marco de datos x y finalmente obtengo un marco de datos y, que tiene el esquema ...

apache-spark scala window-functions

1 la respuesta

Cómo filtrar datos usando funciones de ventana en spark

Tengo los siguientes datos: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAhora quería filtrar los datos de tal manera que pueda eliminar las filas 6 y 7, para un uid en particular, quiero mantener ...

dataframe apache-spark-sql scala apache-spark

1 la respuesta

Obteniendo valores distintos en una columna usando Spark DataFrame

Al usar la versión 1.6.1 de Spark, necesito obtener valores distintos en una columna y luego realizar alguna transformación específica encima. La columna contiene más de 50 millones de registros y puede crecer más. Entiendo que hacer ...

apache-spark hadoop scala

1 la respuesta

Apache Spark que maneja datos sesgados

Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición. Escuché y leí e intenté ...

jupyter-notebook python pyspark

4 la respuesta

Pyspark: muestra el histograma de una columna de marco de datos

En el marco de datos de pandas, estoy usando el siguiente código para trazar el histograma de una columna: my_df.hist(column = 'field_1')¿Hay algo que pueda lograr el mismo objetivo en el marco de datos pyspark? (Estoy en el cuaderno de Jupyter) ...

apache-spark scala filter

2 la respuesta

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Estoy usando Spark 1.4.0, esto es lo que tengo hasta ahora: data.filter($"myColumn".in(lit("A"), lit("B"), lit("C"), ...))La ...

apache-spark rdd lazy-evaluation distributed-computing

2 la respuesta

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

Página 5 de 12

3 456 7

Resultados de la búsqueda a petición "spark-dataframe"

Los marcos de datos de Spark convierten JSON anidado en columnas separadas

Sobrescribir particiones específicas en el método de escritura de trama de datos de chispa

Convierta la columna Spark DataFrame a la lista de Python

Etiquetas Populares

Lea desde una tabla de colmena y escríbale usando spark sql

Cómo filtrar datos usando funciones de ventana en spark

Obteniendo valores distintos en una columna usando Spark DataFrame

Apache Spark que maneja datos sesgados

Pyspark: muestra el histograma de una columna de marco de datos

Filtre el marco de datos de chispa / escala si la columna está presente en el conjunto

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "spark-dataframe"

Etiquetas Populares