Resultados de la búsqueda a petición "apache-spark"
La transmisión no se produce al unir marcos de datos en Spark 1.6
A continuación se muestra el código de muestra que estoy ejecutando. cuando se ejecuta este trabajo de chispa, las uniones de trama de datos se realizan utilizando sortmergejoin en lugar de broadcastjoin. def joinedDf (sqlContext: SQLContext, ...
Spark Streaming: ¿Cómo puedo agregar más particiones a mi DStream?
Tengo una aplicación de transmisión por chispa que se ve así: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...
Cómo seleccionar todas las columnas que comienzan con una etiqueta común
Tengo un marco de datos en Spark 1.6 y quiero seleccionar solo algunas columnas. Los nombres de las columnas son como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Sé que puedo hacer esto para seleccionar columnas ...
¿Hay alguna manera de barajar la colección en Spark?
Necesito barajar el archivo de texto con 2.2 * 10 ^ 9 líneas. ¿Hay alguna forma de cargarlo en la chispa, luego barajar cada partición en paralelo (para mí es suficiente barajar dentro del alcance de la partición) y luego volver al archivo?
crear JAR para Spark
Estoy siguiendo estoguía [https://spark.apache.org/docs/1.2.0/quick-start.html], pero no puedo ejecutar Scala en Spark, cuando intento crear el JAR consbt. yo tengosimple.sbt como: name := "Simple Project" version := "1.0" scalaVersion := ...
Igualdad de clase de caso en Apache Spark
¿Por qué la coincidencia de patrones en Spark no funciona igual que en Scala? Ver ejemplo a continuación ... funciónf() intenta hacer coincidir el patrón en la clase, que funciona en el REPL de Scala pero falla en Spark y da como resultado todos ...
Apache Spark: asigna el resultado de UDF a varias columnas de trama de datos
Estoy usando pyspark, cargando un archivo csv grande en un marco de datos con spark-csv, y como paso de preprocesamiento necesito aplicar una variedad de operaciones a los datos disponibles en una de las columnas (que contiene una cadena json) . ...
cargar bibliotecas externas dentro del código pyspark
Tengo un grupo de chispas que uso en modo local. Quiero leer un csv con la biblioteca externa de databricks spark.csv. Inicio mi aplicación de la siguiente manera: import os import sys os.environ["SPARK_HOME"] ...
Comparta SparkContext entre Java y R Apps bajo el mismo Master
Así que aquí está la configuración. Actualmente tengo dos aplicaciones Spark inicializadas. Necesito pasar datos entre ellos (preferiblemente a través de sparkcontext / sqlcontext compartido para poder consultar una tabla temporal). Actualmente ...
Cómo usar el método max en JavaPairRDD
Entonces, estaba tratando de usar max enJavaPairRDD pero no pudo hacerlo funcionar. JavaPairRDD<Integer, String> someRdd = (initialisation) String maxValue = someRdd.max() //not workingMi código :http://ideone.com/0YXCJw [http://ideone.com/0YXCJw]