Resultados de la búsqueda a petición "parquet"
Parquet vs ORC vs ORC con Snappy
Estoy ejecutando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que ...
Partición Spark: mucho más lenta que sin ella
Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...
Cree una tabla de Hive para leer archivos de parquet del esquema de parquet / avro
Estamos buscando una solución para crear una tabla de colmena externa para leer datos de archivos de parquet de acuerdo con un esquema de parquet / avro. de otro modo, ¿cómo generar una tabla de colmena a partir de un esquema de parquet / ...
Spark SQL: carga de archivos csv / psv con algunos registros mal formados
Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...
Agregar datos nuevos a archivos de parquet particionados
Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...
Excepción de chispa: la tarea falló al escribir filas
Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...
¿Cómo ver el archivo Apache Parquet en Windows?
No pude encontrar ninguna explicación sencilla en inglés sobre los archivos de Apache Parquet. Como ¿Qué sonNecesito Hadoop o HDFS para verlos / crearlos / almacenarlos? ¿Cómo puedo crear archivos de parquet? ¿Cómo puedo ver los archivos de ...
Alcanzar concurrencia al guardar en un archivo de parquet particionado
Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...