Resultados de la búsqueda a petición "parquet"

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

1 la respuesta

Excepción de chispa al convertir una tabla MySQL a parquet

Estoy tratando de convertir una tabla remota de MySQL en un archivo de parquet usando spark 1.6.2. El proceso se ejecuta durante 10 minutos, llenando la memoria, que comienza con estos mensajes: WARN NettyRpcEndpointRef: Error sending message ...

1 la respuesta

¿Es posible leer y escribir Parquet usando Java sin depender de Hadoop y HDFS?

He estado buscando una solución a esta pregunta. Me parece que no hay forma de incrustar la lectura y escritura del formato Parquet en un programa Java sin tener que depender de HDFS y Hadoop. ¿Es esto correcto? Quiero leer y escribir en una ...

3 la respuesta

Escribir parquet desde la manguera de incendios de AWS Kinesis a AWS S3

Me gustaría ingerir datos en s3 desde kinesis firehose formateado como parquet. Hasta ahora acabo de encontrar una solución que implica crear un EMR, pero estoy buscando algo más barato y más rápido, como almacenar el json recibido como parquet ...

1 la respuesta

¿Por qué Impala no puede leer los archivos de parquet después de la escritura de Spark SQL?

Tener algunos problemas con la forma en que Spark está interpretando columnas para parquet. Tengo una fuente de Oracle con esquema confirmado (método df.schema ()): root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- ...

3 la respuesta

Usando pyarrow, ¿cómo se agrega al archivo de parquet?

¿Cómo se agrega / actualiza a unparquet archivo conpyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) ...

1 la respuesta

Tipo de tiempo int96 de Spark

Cuando crea una columna de marca de tiempo en spark y la guarda en parquet, obtiene un tipo de columna de entero de 12 bytes (int96); Supongo que los datos se dividen en 6 bytes para el día juliano y 6 bytes para nanosegundos dentro ...

2 la respuesta

Spark: lee el archivo solo si la ruta existe

Estoy tratando de leer los archivos presentes enSequence de caminos en scala. A continuación se muestra el código de ejemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Ahora, en la secuencia ...

1 la respuesta

¿Se puede dividir el archivo Parquet comprimido en HDFS para Spark?

Recibo mensajes confusos al buscar y leer respuestas en Internet sobre este tema. ¿Alguien puede compartir su experiencia? Sé con certeza que csv gzipped no lo es, pero tal vez las estructuras internas de archivos para Parquet son tales que es un ...

2 la respuesta

Lea el archivo Parquet almacenado en S3 con AWS Lambda (Python 3)

Estoy tratando de cargar, procesar y escribir archivos de Parquet en S3 con AWS Lambda. Mi proceso de prueba / implementación es: https://github.com/lambci/docker-lambda [https://github.com/lambci/docker-lambda]como un contenedor para burlarse ...