Resultados de la búsqueda a petición "parquet"
Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas
Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...
Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos
Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...
¿Es posible cargar la mesa de parquet directamente desde el archivo?
Si tengo un archivo de datos binarios (se puede convertir a formato csv), ¿hay alguna forma de cargar la tabla de parquet directamente desde él? Muchos tutoriales muestran cómo cargar el archivo csv en la tabla de texto, y luego de la tabla de ...
Partición Spark: mucho más lenta que sin ella
Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...
Cree una tabla de Hive para leer archivos de parquet del esquema de parquet / avro
Estamos buscando una solución para crear una tabla de colmena externa para leer datos de archivos de parquet de acuerdo con un esquema de parquet / avro. de otro modo, ¿cómo generar una tabla de colmena a partir de un esquema de parquet / ...
Spark SQL: carga de archivos csv / psv con algunos registros mal formados
Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...
¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?
Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...
¿La consulta contra un Spark DataFrame basado en CSV es más rápida que una basada en Parquet?
Tengo que cargar un archivo CSV de HDFS usando Spark enDataFrame. Me preguntaba si hay una mejora en el "rendimiento" (velocidad de consulta) de un DataFrame respaldado por un archivo CSV frente a uno respaldado por un archivo de parquet. Por lo ...
¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?
Mi equipo está creando un proceso ETL para cargar archivos de texto delimitados sin procesar en un "lago de datos" basado en Parquet usando Spark. Una de las promesas de la tienda de columnas Parquet es que una consulta solo leerá las "franjas de ...
Excepción de chispa al convertir una tabla MySQL a parquet
Estoy tratando de convertir una tabla remota de MySQL en un archivo de parquet usando spark 1.6.2. El proceso se ejecuta durante 10 minutos, llenando la memoria, que comienza con estos mensajes: WARN NettyRpcEndpointRef: Error sending message ...