Resultados de la búsqueda a petición "parquet"

Estoy ejecutando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que ...

apache-spark-sql apache-spark scala

1 la respuesta

Partición Spark: mucho más lenta que sin ella

Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...

avro hive

1 la respuesta

Cree una tabla de Hive para leer archivos de parquet del esquema de parquet / avro

Estamos buscando una solución para crear una tabla de colmena externa para leer datos de archivos de parquet de acuerdo con un esquema de parquet / avro. de otro modo, ¿cómo generar una tabla de colmena a partir de un esquema de parquet / ...

apache-spark apache-spark-sql csv

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...

scala append apache-spark

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

apache-spark java apache-spark-sql hadoop

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...

java .net bigdata

3 la respuesta

¿Cómo ver el archivo Apache Parquet en Windows?

No pude encontrar ninguna explicación sencilla en inglés sobre los archivos de Apache Parquet. Como ¿Qué sonNecesito Hadoop o HDFS para verlos / crearlos / almacenarlos? ¿Cómo puedo crear archivos de parquet? ¿Cómo puedo ver los archivos de ...

scala apache-spark

1 la respuesta

Alcanzar concurrencia al guardar en un archivo de parquet particionado

Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...

Página 4 de 4

1 2 34

Resultados de la búsqueda a petición "parquet"

Parquet vs ORC vs ORC con Snappy

Partición Spark: mucho más lenta que sin ella

Cree una tabla de Hive para leer archivos de parquet del esquema de parquet / avro

Etiquetas Populares

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Agregar datos nuevos a archivos de parquet particionados

Excepción de chispa: la tarea falló al escribir filas

¿Cómo ver el archivo Apache Parquet en Windows?

Alcanzar concurrencia al guardar en un archivo de parquet particionado

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "parquet"

Etiquetas Populares