Resultados de la búsqueda a petición "parquet"

1 la respuesta

Cómo generar archivos de parquet utilizando Java puro (incluidos los tipos de fecha y decimales) y cargarlos en S3 [Windows] (sin HDFS)

Recientemente tuve un requisito en el que necesitaba generar archivos de Parquet que pudieran ser leídos por Apache Spark utilizando solo Java (sin instalaciones de software adicionales como: Apache Drill, Hive, Spark, etc.). Los archivos debían ...

4 la respuesta

¿Cómo convertir spark SchemaRDD a RDD de mi clase de caso?

En los documentos de spark está claro cómo crear archivos de parquet a partir deRDD de sus propias clases de casos; (de los documentos) val people: RDD[Person] = ??? // An RDD of case class objects, from the previous example. // The RDD is ...

1 la respuesta

Spark SQL no puede completar la escritura de datos de Parquet con una gran cantidad de fragmentos

Estoy tratando de usar Apache Spark SQL para etl json registrar datos en S3 en archivos Parquet también en S3. Mi código es básicamente: import org.apache.spark._ val sqlContext = sql.SQLContext(sc) val data = sqlContext.jsonFile("s3n://...", ...

1 la respuesta

¿Es posible cargar la mesa de parquet directamente desde el archivo?

Si tengo un archivo de datos binarios (se puede convertir a formato csv), ¿hay alguna forma de cargar la tabla de parquet directamente desde él? Muchos tutoriales muestran cómo cargar el archivo csv en la tabla de texto, y luego de la tabla de ...

1 la respuesta

spark 2.3.0, parquet 1.8.2: ¿no existen estadísticas para un campo binario en el archivo resultante de la escritura de chispa?

En la rama de chispa maestra: intenté escribir una sola columna con "a", "b", "c" en el archivo de parquetf1 scala> List("a", "b", "c").toDF("field1").coalesce(1).write.parquet("f1")Pero el archivo guardado no tiene estadísticas (min, max) $ ls ...

7 la respuesta

Avro vs. Parquet

Estoy planeando usar uno de los formatos de archivo hadoop para mi proyecto relacionado con hadoop. yoentenderparquet es eficiente para consultas basadas en columnas y avro para escaneo completo o cuando necesitamos todos los datos de las ...

4 la respuesta

Lea algunos archivos de parquet al mismo tiempo en Spark

Puedo leer algunos archivos json al mismo tiempo usando * (estrella): sqlContext.jsonFile('/path/to/dir/*.json')¿Hay alguna manera de hacer lo mismo para el parquet? La estrella no funciona.

2 la respuesta

¿Cómo leer y escribir Map <String, Object> desde / a un archivo de parquet en Java o Scala?

Buscando un ejemplo conciso sobre cómo leer y escribirMap<String, Object> de / a archivo de parquet en Java o Scala? Aquí está la estructura esperada, usandocom.fasterxml.jackson.databind.ObjectMapper como serializador en Java (es decir, ...

0 la respuesta

Error de SparkR collect () y head () para Spark DataFrame: los argumentos implican un número diferente de filas

Leí un archivo de parquet del sistema HDFS: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = true) |-- ...

2 la respuesta

¿Cómo lidiar con tareas que se ejecutan demasiado tiempo (en comparación con otras en el trabajo) en Yarn-Client?

Usamos un cluster Spark comoyarn-client para calcular varios negocios, pero a veces tenemos una tarea que se ejecuta demasiado tiempo: [/imgs/IWSbQ.png] No establecemos el tiempo de espera, pero creo que el tiempo de espera predeterminado es ...