Resultados de la búsqueda a petición "apache-spark-sql"
Cómo dividir Vector en columnas - usando PySpark
Contexto:tengo unDataFrame con 2 columnas: palabra y vector. Donde el tipo de columna de "vector" esVectorUDT. Un ejemplo: word | vector assert | [435,323,324,212...] ,Y quiero obtener esto: word | v1 | v2 | v3 | v4 | v5 | v6 ...... assert | ...
Spark Dataframe Recuento máximo de columnas
¿Cuál es el recuento máximo de columnas de Spark Dataframe? Intenté obtenerlo de la documentación del marco de datos pero no pude encontrarlo.
Chispa: operación aleatoria que lleva a una larga pausa de GC
Estoy corriendoSpark 2 y estoy tratando de mezclar alrededor de 5 terabytes de json. Me encuentro con pausas muy largas de recolección de basura durante la mezcla de unDataset: val operations = ...
¿Cómo realizar la unión en dos DataFrames con diferentes cantidades de columnas en chispa?
tengo 2DataFrames como sigue: [/imgs/L4qs0.png] Necesito una unión como esta: [/imgs/mdICY.png] losunionAll La función no funciona porque el número y el nombre de las columnas son diferentes. ¿Cómo puedo hacer esto?
Recupere los primeros n en cada grupo de un DataFrame en pyspark
Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...
Descargue los datos de carga y agregue el nombre del archivo como columna del marco de datos
Estoy cargando algunos datos en Spark con una función de contenedor: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...
¿Definir un UDF que acepte una matriz de objetos en un Spark DataFrame?
Al trabajar con los marcos de datos de Spark, se requieren funciones definidas por el usuario (UDF) para asignar datos en columnas. Las UDF requieren que los tipos de argumento se especifiquen explícitamente. En mi caso, necesito manipular una ...
La canalización de Spark ML causa java.lang.Exception: no se pudo compilar ... El código ... crece más allá de 64 KB
Con Spark 2.0, estoy tratando de ejecutar un VectorAssembler simple en una tubería pyspark ML, así: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...
Comprender la representación de la columna vectorial en Spark SQL
Antes de usar VectorAssembler () para consolidar algunas características categóricas de OneHotEncoded ... Mi marco de datos se veía así: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
argmax en Spark DataFrames: cómo recuperar la fila con el valor máximo
Dado un Spark DataFramedf, Quiero encontrar el valor máximo en una determinada columna numérica'values'y obtenga las filas donde se alcanzó ese valor. Por supuesto que puedo hacer esto: # it doesn't matter if I use scala or python, # since I ...