Resultados de la búsqueda a petición "parquet"

2 la respuesta

¿Cómo leer y escribir Map <String, Object> desde / a un archivo de parquet en Java o Scala?

Buscando un ejemplo conciso sobre cómo leer y escribirMap<String, Object> de / a archivo de parquet en Java o Scala? Aquí está la estructura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador en Java (es decir, ...

1 la respuesta

Alcanzar concurrencia al guardar en un archivo de parquet particionado

Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...

2 la respuesta

¿Cómo convertir una tabla SQL de 500 GB en Apache Parquet?

Quizás esto esté bien documentado, pero me estoy confundiendo mucho sobre cómo hacerlo (hay muchas herramientas de Apache). Cuando creo una tabla SQL, creo la tabla usando los siguientes comandos: CREATE TABLE table_name( column1 datatype, ...

1 la respuesta

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...

3 la respuesta

Usando pyarrow, ¿cómo se agrega al archivo de parquet?

¿Cómo se agrega / actualiza a unparquet archivo conpyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) ...

2 la respuesta

Spark: lee el archivo solo si la ruta existe

Estoy tratando de leer los archivos presentes enSequence de caminos en scala. A continuación se muestra el código de ejemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Ahora, en la secuencia ...

1 la respuesta

¿Es posible leer y escribir Parquet usando Java sin depender de Hadoop y HDFS?

He estado buscando una solución a esta pregunta. Me parece que no hay forma de incrustar la lectura y escritura del formato Parquet en un programa Java sin tener que depender de HDFS y Hadoop. ¿Es esto correcto? Quiero leer y escribir en una ...

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...