Resultados de la búsqueda a petición "spark-dataframe"

2 la respuesta

Partición de parquet Spark: gran cantidad de archivos

Estoy tratando de aprovechar la partición de chispas. Estaba tratando de hacer algo como data.write.partitionBy("key").parquet("/location")El problema aquí es que cada partición crea una gran cantidad de archivos de parquet que resultan en ...

2 la respuesta

¿Cómo escribir un objeto de conjunto de datos para sobresalir en spark java?

Estoy leyendo un archivo de Excel usandocom.crealytics.spark.excelpaquete. A continuación se muestra el código para leer un archivo de Excel en spark java. Dataset<Row> SourcePropertSet = sqlContext.read() .format("com.crealytics.spark.excel") ...

1 la respuesta

Cómo comparar dos marcos de datos e imprimir columnas que son diferentes en escala

Tenemos dos marcos de datos aquí: el marco de datos esperado: +------+---------+--------+----------+-------+--------+ |emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site| +------+---------+--------+----------+-------+--------+ | 3| ...

3 la respuesta

¿Cómo funciona createOrReplaceTempView en Spark?

Soy nuevo en Spark y Spark SQL. CómocreateOrReplaceTempView trabaja en Spark? Si registramos unRDD de objetos como una tabla provocará mantener todos los datos en la memoria?

1 la respuesta

Spark Dataframe: generar una matriz de tuplas a partir de un tipo de mapa

Mi fuente aguas abajo no admite un tipo de Mapa y mi fuente sí y, como tal, lo envía. Necesito convertir este mapa en una matriz de estructura (tupla). Scala admite Map.toArray, que crea una matriz de tuplas para usted, que parece ser la función ...

2 la respuesta

Pyspark: matriz de conversión con estructura anidada a cadena

Tengo el marco de datos pyspark con una columna llamadaFiltros: "matriz>" Quiero guardar mi marco de datos en un archivo csv, para eso necesito convertir la matriz al tipo de cadena. Traté de lanzarlo:DF.Filters.tostring() ...

1 la respuesta

unir dinámicamente dos marcos de datos de spark-scala en varias columnas sin condiciones de unión de codificación fija

Me gustaría unir dos marcos de datos de spark-scala en varias columnas dinámicamente. Evitaría la comparación del nombre de la columna de codificación rígida como se muestra en las siguientes declaraciones; val joinRes = df1.join(df2, ...

1 la respuesta

Python / pyspark data frame reorganizar columnas

Tengo un marco de datos en python / pyspark con columnasid time city zip y así...... Ahora agregué una nueva columnaname a este marco de datos. Ahora tengo que organizar las columnas de tal manera que elname la columna viene despuésid He hecho ...

1 la respuesta

Apache Spark Dataframe Groupby agg () para varias columnas

tengo unDataFrame con 3 columnas, es decirId, First Name, Last Name quiero aplicarGroupBy sobre la base deId y quiere coleccionarFirst Name, Last Name columna como lista. Ejemplo: tengo un DF como este +---+-------+--------+ |id |fName |lName ...

2 la respuesta

Grupo Pyspark Dataframe mediante filtrado

Tengo un marco de datos como a continuación cust_id req req_met ------- --- ------- 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1Tengo que mirar a los clientes, ver cuántos requisitos tienen y ver si han cumplido al menos ...