Resultados de la búsqueda a petición "parquet"

4 la respuesta

Spark Dataframe validando nombres de columnas para escrituras de parquet (scala)

Estoy procesando eventos usando Dataframes convertidos a partir de una secuencia de eventos JSON que eventualmente se escribe como formato Parquet. Sin embargo, algunos de los eventos JSON contienen espacios en las teclas que deseo registrar y ...

7 la respuesta

Avro vs. Parquet

Estoy planeando usar uno de los formatos de archivo hadoop para mi proyecto relacionado con hadoop. yoentenderparquet es eficiente para consultas basadas en columnas y avro para escaneo completo o cuando necesitamos todos los datos de las ...

1 la respuesta

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...

4 la respuesta

¿Cómo convertir spark SchemaRDD a RDD de mi clase de caso?

En los documentos de spark está claro cómo crear archivos de parquet a partir deRDD de sus propias clases de casos; (de los documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is ...

1 la respuesta

Recuento rápido de filas de parquet en Spark

Los archivos de Parquet contienen un campo de recuento de filas por bloque. Spark parece leerlo en algún momento ...

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

5 la respuesta

Parquet vs ORC vs ORC con Snappy

Estoy ejecutando algunas pruebas en los formatos de almacenamiento disponibles con Hive y usando Parquet y ORC como opciones principales. Incluí ORC una vez con compresión predeterminada y una vez con Snappy. He leído muchos documentos que ...

1 la respuesta

Tipo de tiempo int96 de Spark

Cuando crea una columna de marca de tiempo en spark y la guarda en parquet, obtiene un tipo de columna de entero de 12 bytes (int96); Supongo que los datos se dividen en 6 bytes para el día juliano y 6 bytes para nanosegundos dentro ...

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

3 la respuesta

Usando pyarrow, ¿cómo se agrega al archivo de parquet?

¿Cómo se agrega / actualiza a unparquet archivo conpyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) ...