Resultados de la búsqueda a petición "parquet"

5 la respuesta

Parquet vs ORC vs ORC con Snappy

Estoy ejecutando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que ...

1 la respuesta

Partición Spark: mucho más lenta que sin ella

Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...

1 la respuesta

Cree una tabla de Hive para leer archivos de parquet del esquema de parquet / avro

Estamos buscando una solución para crear una tabla de colmena externa para leer datos de archivos de parquet de acuerdo con un esquema de parquet / avro. de otro modo, ¿cómo generar una tabla de colmena a partir de un esquema de parquet / ...

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...

3 la respuesta

¿Cómo ver el archivo Apache Parquet en Windows?

No pude encontrar ninguna explicación sencilla en inglés sobre los archivos de Apache Parquet. Como ¿Qué sonNecesito Hadoop o HDFS para verlos / crearlos / almacenarlos? ¿Cómo puedo crear archivos de parquet? ¿Cómo puedo ver los archivos de ...

1 la respuesta

Alcanzar concurrencia al guardar en un archivo de parquet particionado

Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...