Resultados de la búsqueda a petición "apache-spark-sql"

1 la respuesta

Cómo dividir Vector en columnas - usando PySpark

Contexto:tengo unDataFrame con 2 columnas: palabra y vector. Donde el tipo de columna de "vector" esVectorUDT. Un ejemplo: word | vector assert | [435,323,324,212...] ,Y quiero obtener esto: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...

1 la respuesta

Spark Dataframe Recuento máximo de columnas

¿Cuál es el recuento máximo de columnas de Spark Dataframe? Intenté obtenerlo de la documentación del marco de datos pero no pude encontrarlo.

1 la respuesta

Chispa: operación aleatoria que lleva a una larga pausa de GC

Estoy corriendoSpark 2 y estoy tratando de mezclar alrededor de 5 terabytes de json. Me encuentro con pausas muy largas de recolección de basura durante la mezcla de unDataset: val operations = ...

8 la respuesta

¿Cómo realizar la unión en dos DataFrames con diferentes cantidades de columnas en chispa?

tengo 2DataFrames como sigue: [/imgs/L4qs0.png] Necesito una unión como esta: [/imgs/mdICY.png] losunionAll La función no funciona porque el número y el nombre de las columnas son diferentes. ¿Cómo puedo hacer esto?

3 la respuesta

Recupere los primeros n en cada grupo de un DataFrame en pyspark

Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...

1 la respuesta

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

1 la respuesta

¿Definir un UDF que acepte una matriz de objetos en un Spark DataFrame?

Al trabajar con los marcos de datos de Spark, se requieren funciones definidas por el usuario (UDF) para asignar datos en columnas. Las UDF requieren que los tipos de argumento se especifiquen explícitamente. En mi caso, necesito manipular una ...

1 la respuesta

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

1 la respuesta

Comprender la representación de la columna vectorial en Spark SQL

Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

2 la respuesta

argmax en Spark DataFrames: cómo recuperar la fila con el valor máximo

Dado un Spark DataFramedf, Quiero encontrar el valor máximo en una determinada columna numérica'values'y obtenga las filas donde se alcanzó ese valor. Por supuesto que puedo hacer esto: # it doesn't matter if I use scala or python, # since I ...