Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Cómo guardar / insertar cada DStream en una tabla permanente

He estado enfrentando un problema con "Spark Streaming" sobre la inserción de la salida Dstream en unpermanente Tabla SQL. Me gustaría insertar cada salida DStream (proveniente de un solo lote que genera procesos) en una tabla única. He estado ...

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

1 la respuesta

¿Por qué Apache Spark lee columnas innecesarias de Parquet dentro de estructuras anidadas?

Mi equipo está creando un proceso ETL para cargar archivos de texto delimitados sin procesar en un "lago de datos" basado en Parquet usando Spark. Una de las promesas de la tienda de columnas Parquet es que una consulta solo leerá las "franjas de ...

3 la respuesta

PySpark, superior para DataFrame

Lo que quiero hacer es un marco de datos, tomar los n elementos principales de acuerdo con alguna columna especificada. La parte superior (self, num) en RDD API es exactamente lo que quiero. Me pregunto si hay una API equivalente en el mundo ...

1 la respuesta

Scala: Spark SQL to_date (unix_timestamp) que devuelve NULL

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estoy cargando un csv en bruto en un DataFrame. En csv, aunque se admite que la columna esté en formato de fecha, se escriben como 20161025 en lugar de 2016-10-25. El parámetrodate_format ...

2 la respuesta

¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?

Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...

1 la respuesta

Crear DataFrame a partir de la lista de tuplas usando pyspark

Estoy trabajando con datos extraídos de SFDC usando el paquete simple-salesforce. Estoy usando Python3 para scripting y Spark 1.5.2. Creé un rdd que contiene los siguientes datos: [('Id', 'a0w1a0000003xB1A'), ('PackSize', 1.0), ('Name', 'A')] ...

1 la respuesta

Determinar el número óptimo de particiones Spark en función de los trabajadores, los núcleos y el tamaño del Marco de datos

Hay varios conceptos similares pero diferentes en Spark-land que rodean cómo el trabajo se cultiva en diferentes nodos y se ejecuta simultáneamente. Específicamente, hay: El nodo Spark Driver sparkDriverCount) El número de nodos de trabajo ...

2 la respuesta

¿Cómo convertir DataFrame a Dataset en Apache Spark en Java?

Puedo convertir DataFrame a Dataset en Scala muy fácil: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemapero en la versión de Java no sé cómo convertir Dataframe a ...

0 la respuesta

Cómo "reducir" múltiples tablas json almacenadas en una columna de un RDD a una sola tabla RDD de la manera más eficiente posible

¿El acceso concurrente para agregar filas usando la unión en un marco de datos usando el siguiente código funcionará correctamente? Actualmente muestra error de tipo from pyspark.sql.types import * schema = StructType([ ...