Resultados de la búsqueda a petición "parquet"

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...

1 la respuesta

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...

2 la respuesta

Usar Spark para escribir un archivo de parquet en s3 sobre s3a es muy lento

Estoy tratando de escribir unparquet presentar aAmazon S3 utilizandoSpark 1.6.1. El pequeñoparquet que estoy generando es~2GB una vez escrito, entonces no son tantos datos. Estoy tratando de probarSpark fuera como una plataforma que ...

3 la respuesta

¿Cuáles son las ventajas y desventajas del formato de parquet en comparación con otros formatos?

Las características del parquet Apache son: AutodescriptivoFormato de columnasIndependiente del idiomaEn comparación con Avro, Sequence Files, RC File, etc. Quiero una visión general de los formatos. Ya he leído:Cómo funciona Impala con formatos ...

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...

1 la respuesta

Cree una tabla de Hive para leer archivos de parquet del esquema de parquet / avro

Estamos buscando una solución para crear una tabla de colmena externa para leer datos de archivos de parquet de acuerdo con un esquema de parquet / avro. de otro modo, ¿cómo generar una tabla de colmena a partir de un esquema de parquet / ...

1 la respuesta

Partición Spark: mucho más lenta que sin ella

Probé escribiendo con: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath)Sin embargo, si dejo de lado la partición: df.write .mode(SaveMode.Append) .parquet(filePath)Se ejecuta 100x (!) Más rápido. ¿Es normal que la ...

5 la respuesta

Parquet vs ORC vs ORC con Snappy

Estoy ejecutando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que ...