Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Agregaciones de filas en Scala

Estoy buscando una manera de obtener una nueva columna en un marco de datos en Scala que calcule lamin/max de los valores encol1, col2, ...,col10 por cada fila Sé que puedo hacerlo con un UDF, pero tal vez haya una manera más fácil. ¡Gracias

1 la respuesta

a función .count () de @ Spark es diferente al contenido del marco de datos cuando se filtra en el campo de registro corrupto

Tengo un trabajo de Spark, escrito en Python, que está obteniendo un comportamiento extraño al verificar los errores en sus datos. A continuación se muestra una versión simplificada: from pyspark.sql import SparkSession from pyspark.sql.types ...

1 la respuesta

¿Por qué no se utiliza el pushdown de predicados en la API de conjunto de datos con tipo (frente a la API de marco de datos sin tipo)?

Siempre pensé que las API de dataset / dataframe son las mismas ... y la única diferencia es que la API de dataset le dará seguridad en el tiempo de compilación. Correcto Entonces, tengo un caso muy simple: case class Player (playerID: ...

1 la respuesta

Manipulación de fila para Dataframe en chispa [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo mapear un Dataframe anidado en Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 respuesta Tengo un marco de datos en chispa que es como: column_A | column_B --------- ...

3 la respuesta

Procesamiento de columnas eficiente en PySpark

Tengo un marco de datos con una gran cantidad de columnas (> 30000). Lo estoy llenando con1 y0 basado en la primera columna como esta: for column in list_of_column_names: df = df.withColumn(column, when(array_contains(df['list_column'], ...

1 la respuesta

agregándose con una condición en groupby spark dataframe

Tengo un marco de datos id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 ...

3 la respuesta

¿Cómo optimizar el particionamiento al migrar datos desde la fuente JDBC?

Estoy tratando de mover datos de una tabla en la tabla PostgreSQL a una tabla Hive en HDFS. Para hacer eso, se me ocurrió el siguiente código: val conf = ...

1 la respuesta

spark data frame nivel de fila y columna de operación usando scala

Marco de datos original 0.2 0.3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

2 la respuesta

obtenga los primeros N elementos de la columna ArrayType del marco de datos en pyspark

Tengo un marco de datos de chispa con filas como - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i] Ahora quiero conservar solo los primeros 2 elementos de la columna de matriz. 1 | [a, b] 2 | [d, e] 3 | [g, h] ¿Cómo se puede lograr eso? Nota: ...