Resultados de la búsqueda a petición "spark-dataframe"

3 la respuesta

Convertir el marco de datos de Pandas en error de marco de datos de Spark

Estoy tratando de convertir Pandas DF en Spark One. Cabeza del ...

1 la respuesta

¿Cuándo usar Spark DataFrame / Dataset API y cuándo usar RDD simple?

El motor de ejecución Spark SQL DataFrame / Dataset tiene varias optimizaciones de tiempo y espacio extremadamente eficientes (por ejemplo, InternalRow y expression codeGen). Según muchas documentaciones, parece ser una mejor opción que RDD para ...

0 la respuesta

Cómo "reducir" múltiples tablas json almacenadas en una columna de un RDD a una sola tabla RDD de la manera más eficiente posible

¿El acceso concurrente para agregar filas usando la unión en un marco de datos usando el siguiente código funcionará correctamente? Actualmente muestra error de tipo from pyspark.sql.types import * schema = StructType([ ...

5 la respuesta

¿Cómo importar múltiples archivos csv en una sola carga?

Considere que tengo un esquema definido para cargar 10 archivos csv en una carpeta. ¿Hay alguna manera de cargar tablas automáticamente usando Spark SQL? Sé que esto se puede realizar mediante el uso de un marco de datos individual para cada ...

2 la respuesta

¿Cómo calcular el percentil de la columna en un DataFrame en chispa?

Estoy tratando de calcular el percentil de una columna en un DataFrame? No puedo encontrar ninguna función percentile_approx en las funciones de agregación de Spark. Por ej. en Hive tenemos percentile_approx y podemos usarlo de la ...

5 la respuesta

¿Cómo crear DataFrame de la Lista de Iterables de Scala?

Tengo el siguiente valor de Scala: val values: List[Iterable[Any]] = Traces().evaluate(features).toListy quiero convertirlo en un DataFrame. Cuando intento lo siguiente: sqlContext.createDataFrame(values)Tengo este error: error: overloaded ...

1 la respuesta

Reenviar los valores faltantes en Spark / Python

Estoy tratando de completar los valores faltantes en mi marco de datos de Spark con el valor anterior no nulo (si existe). He hecho este tipo de cosas en Python / Pandas pero mis datos son demasiado grandes para Pandas (en un grupo pequeño) y soy ...

0 la respuesta

OUTER JOIN en 2 MARCOS DE DATOS: Spark Scala SqlContext

Recibo un error al hacer uniones externas en 2 marcos de datos. Estoy tratando de obtener el percentil. val sqlContext = new org.apache.spark.sql.SQLContext(sc) val df = sqlContext.jsonFile("temp.txt") val res = ...

1 la respuesta

¿Cómo hash PySpark DataFrame para obtener un flotador devuelto?

Digamos que tengo un marco de datos de chispa +--------+-----+ | letter|count| +--------+-----+ | a| 2| | b| 2| | c| 1| +--------+-----+Entonces quise encontrar la media. Así que lo hice df = df.groupBy().mean('letter')que dan un marco de ...

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...