Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Errores "./sbt/sbt assembly" "No es un comando válido: assembly" para el proyecto Apache Spark

3 la respuesta

Cómo ejecutar un programa de ejemplo de chispa en Intellij IDEA

Primero en la línea de comandos desde la raíz del proyecto de chispa descargado que ejecuté

2 la respuesta

¿Cómo ejecutar una función en todos los trabajadores de Spark antes de procesar datos en PySpark?

Estoy ejecutando una tarea de Spark Streaming en un clúster usando YARN. Cada nodo en el clúster ejecuta múltiples trabajadores de chispa. Antes de que comience la transmisión, quiero ejecutar una función de "configuración" en todos los ...

1 la respuesta

¿Cómo ejecutar transformaciones independientes en paralelo usando PySpark?

Estoy tratando de ejecutar 2 funciones haciendo transformaciones completamente independientes en un único RDD en paralelo usando PySpark. ¿Cuáles son algunos métodos para hacer lo mismo? def doXTransforms(sampleRDD): (X transforms) def ...

1 la respuesta

Columna de cadena dinámica en Pyspark Dataframe

Tengo un marco de datos simple como este: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...

3 la respuesta

Spark SQL broadcast hash join

Estoy tratando de realizar una unión hash de difusión en marcos de datos usando SparkSQL como se documenta ...

2 la respuesta

Spark union: todos los marcos de datos múltiples

Para un conjunto de marcos de datos val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")a la ...

0 la respuesta

Spark - java.lang.ClassCastException: no se puede asignar la instancia de java.lang.invoke.SerializedLambda al campo org.apache.spark.api.java.JavaRDDLike

public class SparkDemo { @SuppressWarnings({ "resource" }) public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Spark APP").setMaster("spark://xxx.xxx.xxx.xx:7077"); JavaSparkContext sc = ...

2 la respuesta

Evaluación PySpark

Estoy probando el siguiente código que agrega un número a cada fila en un RDD y devuelve una lista de RDD usando PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...

4 la respuesta

Agregando múltiples columnas con función personalizada en Spark

Me preguntaba si hay alguna forma de especificar una función de agregación personalizada para marcos de datos de chispa en varias columnas. Tengo una tabla como esta del tipo (nombre, artículo, precio): john | tomato | 1.99 john | carrot | 0.45 ...