Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Spark Worker no puede conectarse a Master

Al iniciar el nodo de trabajo me sale el siguiente error: Spark Command: /usr/lib/jvm/default-java/bin/java ...

1 la respuesta

¿Cómo podemos unir dos marcos de datos SQL Spark usando un criterio "LIKE" de SQL-esque?

Estamos utilizando las bibliotecas PySpark que interactúan con Spark 1.3.1. Tenemos dos marcos de datos,documents_df := {document_id, document_text} ykeywords_df := {keyword}. Nos gustaría unirnos a los dos marcos de datos y devolver un marco de ...

0 la respuesta

¿Cómo uso múltiples condiciones con pyspark.sql.funtions.when ()?

Tengo un marco de datos con algunas columnas. Ahora quiero derivar una nueva columna de otras 2 columnas: from pyspark.sql import functions as F new_df = df.withColumn("new_col", F.when(df["col-1"] > 0.0 & df["col-2"] > 0.0, 1).otherwise(0))Con ...

2 la respuesta

cuenta el número de elementos únicos en cada columna con dplyr en sparklyr

Estoy tratando de contar el número de elementos únicos en cada columna en el conjunto de datos de chispa. Sin embargo, parece que la chispa no reconoce la ...

1 la respuesta

Conversión de varias columnas diferentes a la columna Mapa con la escala de Spark Dataframe

Tengo un marco de datos con columna:user, address1, address2, address3, phone1, phone2 y así. Quiero convertir este marco de datos a -user, address, phone where address = Map("address1" -> address1.value, "address2" -> address2.value, "address3" ...

2 la respuesta

Cómo explotar una matriz en varias columnas en Spark

Tengo un marco de datos de chispa que se parece a: id DataArray a array(3,2,1) b array(4,2,1) c array(8,6,1) d array(8,2,4)Quiero transformar este marco de datos en: id col1 col2 col3 a 3 2 1 b 4 2 1 c 8 6 1 d 8 2 4¿Qué función debo usar?

2 la respuesta

Explotar (¿transponer?) Varias columnas en la tabla Spark SQL

Estoy usando Spark SQL (menciono que está en Spark en caso de que afecte la sintaxis de SQL; todavía no estoy lo suficientemente familiarizado para estar seguro) y tengo una tabla que estoy tratando de reestructurar, pero estoy quedarse atascado ...

9 la respuesta

La mejor manera de obtener el valor máximo en una columna de marco de datos de Spark

Estoy tratando de encontrar la mejor manera de obtener el mayor valor en una columna de marco de datos de Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Lo que ...

3 la respuesta

¿Se prefiere groupByKey alguna vez sobre reduceByKey?

Yo siempre usoreduceByKey cuando necesito agrupar datos en RDD, porque realiza una reducción del lado del mapa antes de mezclar datos, lo que a menudo significa que se mezclan menos datos y, por lo tanto, obtengo un mejor rendimiento. Incluso ...

1 la respuesta

Se ignora el archivo de propiedades log4j incluido en jar en la aplicación spark

Necesito leer un log4j.properties personalizado de src / resources y esto no funciona try{ val inStream :InputStream= className.this.getClass.getClassLoader.getResourceAsStream("log4j.properties"); logCfgProps.load(inStream) } catch { case e: ...