Resultados de la búsqueda a petición "apache-spark-sql"

Contexto:tengo unDataFrame con 2 columnas: palabra y vector. Donde el tipo de columna de "vector" esVectorUDT. Un ejemplo: word | vector assert | [435,323,324,212...] ,Y quiero obtener esto: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...

apache-spark pyspark

1 la respuesta

Spark Dataframe Recuento máximo de columnas

¿Cuál es el recuento máximo de columnas de Spark Dataframe? Intenté obtenerlo de la documentación del marco de datos pero no pude encontrarlo.

apache-spark garbage-collection g1gc scala

1 la respuesta

Chispa: operación aleatoria que lleva a una larga pausa de GC

Estoy corriendoSpark 2 y estoy tratando de mezclar alrededor de 5 terabytes de json. Me encuentro con pausas muy largas de recolección de basura durante la mezcla de unDataset: val operations = ...

apache-spark

8 la respuesta

¿Cómo realizar la unión en dos DataFrames con diferentes cantidades de columnas en chispa?

tengo 2DataFrames como sigue: [/imgs/L4qs0.png] Necesito una unión como esta: [/imgs/mdICY.png] losunionAll La función no funciona porque el número y el nombre de las columnas son diferentes. ¿Cómo puedo hacer esto?

python apache-spark pyspark dataframe

3 la respuesta

Recupere los primeros n en cada grupo de un DataFrame en pyspark

Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...

apache-spark pyspark

1 la respuesta

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

apache-spark dataframe user-defined-functions scala

1 la respuesta

¿Definir un UDF que acepte una matriz de objetos en un Spark DataFrame?

Al trabajar con los marcos de datos de Spark, se requieren funciones definidas por el usuario (UDF) para asignar datos en columnas. Las UDF requieren que los tipos de argumento se especifiquen explícitamente. En mi caso, necesito manipular una ...

python pyspark-sql pyspark apache-spark

1 la respuesta

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

apache-spark-ml apache-spark-mllib apache-spark

1 la respuesta

Comprender la representación de la columna vectorial en Spark SQL

Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

apache-spark

2 la respuesta

argmax en Spark DataFrames: cómo recuperar la fila con el valor máximo

Dado un Spark DataFramedf, Quiero encontrar el valor máximo en una determinada columna numérica'values'y obtenga las filas donde se alcanzó ese valor. Por supuesto que puedo hacer esto: # it doesn't matter if I use scala or python, # since I ...

Página 6 de 52

4 567 8

Resultados de la búsqueda a petición "apache-spark-sql"

Cómo dividir Vector en columnas - usando PySpark

Spark Dataframe Recuento máximo de columnas

Chispa: operación aleatoria que lleva a una larga pausa de GC

Etiquetas Populares

¿Cómo realizar la unión en dos DataFrames con diferentes cantidades de columnas en chispa?

Recupere los primeros n en cada grupo de un DataFrame en pyspark

Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos

¿Definir un UDF que acepte una matriz de objetos en un Spark DataFrame?

La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB

Comprender la representación de la columna vectorial en Spark SQL

argmax en Spark DataFrames: cómo recuperar la fila con el valor máximo

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark-sql"

Etiquetas Populares