Resultados de la búsqueda a petición "apache-spark"
Spark Worker no puede conectarse a Master
Al iniciar el nodo de trabajo me sale el siguiente error: Spark Command: /usr/lib/jvm/default-java/bin/java ...
¿Cómo podemos unir dos marcos de datos SQL Spark usando un criterio "LIKE" de SQL-esque?
Estamos utilizando las bibliotecas PySpark que interactúan con Spark 1.3.1. Tenemos dos marcos de datos,documents_df := {document_id, document_text} ykeywords_df := {keyword}. Nos gustaría unirnos a los dos marcos de datos y devolver un marco de ...
¿Cómo uso múltiples condiciones con pyspark.sql.funtions.when ()?
Tengo un marco de datos con algunas columnas. Ahora quiero derivar una nueva columna de otras 2 columnas: from pyspark.sql import functions as F new_df = df.withColumn("new_col", F.when(df["col-1"] > 0.0 & df["col-2"] > 0.0, 1).otherwise(0))Con ...
cuenta el número de elementos únicos en cada columna con dplyr en sparklyr
Estoy tratando de contar el número de elementos únicos en cada columna en el conjunto de datos de chispa. Sin embargo, parece que la chispa no reconoce la ...
Conversión de varias columnas diferentes a la columna Mapa con la escala de Spark Dataframe
Tengo un marco de datos con columna:user, address1, address2, address3, phone1, phone2 y así. Quiero convertir este marco de datos a -user, address, phone where address = Map("address1" -> address1.value, "address2" -> address2.value, "address3" ...
Cómo explotar una matriz en varias columnas en Spark
Tengo un marco de datos de chispa que se parece a: id DataArray a array(3,2,1) b array(4,2,1) c array(8,6,1) d array(8,2,4)Quiero transformar este marco de datos en: id col1 col2 col3 a 3 2 1 b 4 2 1 c 8 6 1 d 8 2 4¿Qué función debo usar?
Explotar (¿transponer?) Varias columnas en la tabla Spark SQL
Estoy usando Spark SQL (menciono que está en Spark en caso de que afecte la sintaxis de SQL; todavía no estoy lo suficientemente familiarizado para estar seguro) y tengo una tabla que estoy tratando de reestructurar, pero estoy quedarse atascado ...
La mejor manera de obtener el valor máximo en una columna de marco de datos de Spark
Estoy tratando de encontrar la mejor manera de obtener el mayor valor en una columna de marco de datos de Spark. Considere el siguiente ejemplo: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Lo que ...
¿Se prefiere groupByKey alguna vez sobre reduceByKey?
Yo siempre usoreduceByKey cuando necesito agrupar datos en RDD, porque realiza una reducción del lado del mapa antes de mezclar datos, lo que a menudo significa que se mezclan menos datos y, por lo tanto, obtengo un mejor rendimiento. Incluso ...
Se ignora el archivo de propiedades log4j incluido en jar en la aplicación spark
Necesito leer un log4j.properties personalizado de src / resources y esto no funciona try{ val inStream :InputStream= className.this.getClass.getClassLoader.getResourceAsStream("log4j.properties"); logCfgProps.load(inStream) } catch { case e: ...