Resultados de la búsqueda a petición "apache-spark-sql"
Convierta columnas de un marco de datos Spark con una matriz de objetos JSON en varias filas
Tengo una transmisión de datos JSON, cuya estructura se puede describir con la clase de caso a continuación case class Hello(A: String, B: Array[Map[String, String]]) Los datos de muestra para el mismo son los siguientes | A | B | ...
Particionar un gran conjunto de datos sesgados en S3 con el método de la partición de Spark
stoy tratando de escribir un gran conjunto de datos particionados en el disco con Spark y lapartitionByl algoritmo @ está luchando con los dos enfoques que he probado. Las particiones están muy sesgadas: algunas de las particiones son masivas ...
¿Producto acumulativo en Spark?
Intento implementar un producto acumulativo en Spark scala pero realmente no sé cómo hacerlo. Tengo el siguiente marco de datos: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| 3 ...
obtenga los primeros N elementos de la columna ArrayType del marco de datos en pyspark
Tengo un marco de datos de chispa con filas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i] Ahora quiero conservar solo los primeros 2 elementos de la columna de matriz. 1 | [a, b] 2 | [d, e] 3 | [g, h] ¿Cómo se puede lograr eso? Nota: ...
¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?
He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...
spark data frame nivel de fila y columna de operación usando scala
Marco de datos original 0.2 0.3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...
¿Cómo optimizar el particionamiento al migrar datos desde la fuente JDBC?
Estoy tratando de mover datos de una tabla en la tabla PostgreSQL a una tabla Hive en HDFS. Para hacer eso, se me ocurrió el siguiente código: val conf = ...
agregándose con una condición en groupby spark dataframe
Tengo un marco de datos id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 ...
Procesamiento de columnas eficiente en PySpark
Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...
Manipulación de fila para Dataframe en chispa [duplicado]
Esta pregunta ya tiene una respuesta aquí: Cómo mapear un Dataframe anidado en Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respuesta Tengo un marco de datos en chispa que es como: column_A | column_B --------- ...