Resultados de la búsqueda a petición "apache-spark"
Cómo ejecutar un programa de ejemplo de chispa en Intellij IDEA
Primero en la línea de comandos desde la raíz del proyecto de chispa descargado que ejecuté
¿Cómo ejecutar una función en todos los trabajadores de Spark antes de procesar datos en PySpark?
Estoy ejecutando una tarea de Spark Streaming en un clúster usando YARN. Cada nodo en el clúster ejecuta múltiples trabajadores de chispa. Antes de que comience la transmisión, quiero ejecutar una función de "configuración" en todos los ...
¿Cómo ejecutar transformaciones independientes en paralelo usando PySpark?
Estoy tratando de ejecutar 2 funciones haciendo transformaciones completamente independientes en un único RDD en paralelo usando PySpark. ¿Cuáles son algunos métodos para hacer lo mismo? def doXTransforms(sampleRDD): (X transforms) def ...
Columna de cadena dinámica en Pyspark Dataframe
Tengo un marco de datos simple como este: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...
Spark SQL broadcast hash join
Estoy tratando de realizar una unión hash de difusión en marcos de datos usando SparkSQL como se documenta ...
Spark union: todos los marcos de datos múltiples
Para un conjunto de marcos de datos val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x") val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y") val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")a la ...
Spark - java.lang.ClassCastException: no se puede asignar la instancia de java.lang.invoke.SerializedLambda al campo org.apache.spark.api.java.JavaRDDLike
public class SparkDemo { @SuppressWarnings({ "resource" }) public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Spark APP").setMaster("spark://xxx.xxx.xxx.xx:7077"); JavaSparkContext sc = ...
Evaluación PySpark
Estoy probando el siguiente código que agrega un número a cada fila en un RDD y devuelve una lista de RDD usando PySpark. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = SparkContext('local', ...
Agregando múltiples columnas con función personalizada en Spark
Me preguntaba si hay alguna forma de especificar una función de agregación personalizada para marcos de datos de chispa en varias columnas. Tengo una tabla como esta del tipo (nombre, artículo, precio): john | tomato | 1.99 john | carrot | 0.45 ...