Resultados de la búsqueda a petición "parquet"

Buscando un ejemplo conciso sobre cómo leer y escribirMap<String, Object> de / a archivo de parquet en Java o Scala? Aquí está la estructura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador en Java (es decir, ...

scala apache-spark

1 la respuesta

Alcanzar concurrencia al guardar en un archivo de parquet particionado

Al escribir undataframe aparquet utilizandopartitionBy : df.write.partitionBy("col1","col2","col3").parquet(path) Sería mi expectativa que cada partición que se está escribiendo se hiciera independientemente por una tarea separada y en paralelo ...

mysql hadoop sql-server

2 la respuesta

¿Cómo convertir una tabla SQL de 500 GB en Apache Parquet?

Quizás esto esté bien documentado, pero me estoy confundiendo mucho sobre cómo hacerlo (hay muchas herramientas de Apache). Cuando creo una tabla SQL, creo la tabla usando los siguientes comandos: CREATE TABLE table_name( column1 datatype, ...

aggregation storage apache-spark

1 la respuesta

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

Estoy tratando de crear un archivo agregado para que los usuarios finales lo utilicen para evitar que procesen múltiples fuentes con archivos mucho más grandes. Para hacer eso, I: A) recorro todas las carpetas de origen, eliminando 12 campos que ...

python pandas pyarrow

3 la respuesta

Usando pyarrow, ¿cómo se agrega al archivo de parquet?

¿Cómo se agrega / actualiza a unparquet archivo conpyarrow? import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) ...

scala apache-spark

2 la respuesta

Spark: lee el archivo solo si la ruta existe

Estoy tratando de leer los archivos presentes enSequence de caminos en scala. A continuación se muestra el código de ejemplo (pseudo): val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)Ahora, en la secuencia ...

hadoop java apache-drill data-formats

1 la respuesta

¿Es posible leer y escribir Parquet usando Java sin depender de Hadoop y HDFS?

He estado buscando una solución a esta pregunta. Me parece que no hay forma de incrustar la lectura y escritura del formato Parquet en un programa Java sin tener que depender de HDFS y Hadoop. ¿Es esto correcto? Quiero leer y escribir en una ...

scala append apache-spark

2 la respuesta

Agregar datos nuevos a archivos de parquet particionados

Estoy escribiendo un proceso ETL donde tendré que leer los archivos de registro por hora, particionar los datos y guardarlos. Estoy usando Spark (en Databricks). Los archivos de registro son CSV, así que los leo y aplico un esquema, luego realizo ...

apache-spark apache-spark-sql csv

1 la respuesta

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Estamos cargando jerarquías de directorios de archivos con Spark y convirtiéndolos a Parquet. Hay decenas de gigabytes en cientos de archivos separados por tuberías. Algunos son bastante grandes ellos mismos. Cada, digamos, el archivo número 100 ...

apache-spark java apache-spark-sql hadoop

5 la respuesta

Excepción de chispa: la tarea falló al escribir filas

Estoy leyendo archivos de texto y convirtiéndolos en archivos de parquet. Lo estoy haciendo usando el código de chispa. Pero cuando intento ejecutar el código obtengo la siguiente excepción org.apache.spark.SparkException: Job aborted due to ...

Página 1 de 4

12 3 4

Resultados de la búsqueda a petición "parquet"

¿Cómo leer y escribir Map <String, Object> desde / a un archivo de parquet en Java o Scala?

Alcanzar concurrencia al guardar en un archivo de parquet particionado

¿Cómo convertir una tabla SQL de 500 GB en Apache Parquet?

Etiquetas Populares

¿Por qué los archivos de Spark Parquet para un agregado son más grandes que el original?

Usando pyarrow, ¿cómo se agrega al archivo de parquet?

Spark: lee el archivo solo si la ruta existe

¿Es posible leer y escribir Parquet usando Java sin depender de Hadoop y HDFS?

Agregar datos nuevos a archivos de parquet particionados

Spark SQL: carga de archivos csv / psv con algunos registros mal formados

Excepción de chispa: la tarea falló al escribir filas

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "parquet"

Etiquetas Populares