Resultados de la búsqueda a petición "spark-dataframe"

5 la respuesta

¿Cómo crear DataFrame de la Lista de Iterables de Scala?

Tengo el siguiente valor de Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListy quiero convertirlo en un DataFrame. Cuando intento lo siguiente: sqlContext.createDataFrame(values)Tengo este error: error: overloaded ...

1 la respuesta

¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?

El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...

4 la respuesta

¿Cómo explotar columnas?

Después: val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2") Tengo este DataFrame en Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]| +------+---------+¿Cómo convierto ...

2 la respuesta

¿Cómo calcular el percentil de la columna en un DataFrame en chispa?

Estoy tratando de calcular el percentil de una columna en un DataFrame? No puedo encontrar ninguna función percentile_approx en las funciones de agregación de Spark. Por ej. en Hive tenemos percentile_approx y podemos usarlo de la ...

2 la respuesta

Cómo pasar múltiples declaraciones en Spark SQL HiveContext

Por ejemplo, tengo pocas instrucciones Hive HQL que quiero pasar a Spark SQL: set parquet.compression=SNAPPY; create table MY_TABLE stored as parquet as select * from ANOTHER_TABLE; select * from MY_TABLE limit 5;Lo siguiente ...

1 la respuesta

¿Cómo hash PySpark DataFrame para obtener un flotador devuelto?

Digamos que tengo un marco de datos de chispa +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Entonces quise encontrar la media. Así que lo hice df = df.groupBy().mean('letter')que dan un marco de ...

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...

1 la respuesta

Apache Spark que maneja datos sesgados

Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición. Escuché y leí e intenté ...

5 la respuesta

Spark DataFrame: ¿groupBy after orderBy mantiene ese orden?

Tengo un marco de datos Spark 2.0example con la siguiente estructura: id, hour, count id1, 0, 12 id1, 1, 55 .. id1, 23, 44 id2, 0, 12 id2, 1, 89 .. id2, 23, 34 etc.Contiene 24 entradas para cada id (una para cada hora del día) y se ordena por ...

5 la respuesta

Convierta la columna Spark DataFrame a la lista de Python

Trabajo en un marco de datos con dos columnas, mvv y count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 |Me gustaría obtener dos listas que contengan valores mvv y valor de conteo. Algo como mvv = [1,2,3,4] count = ...