Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

La transmisión no se produce al unir marcos de datos en Spark 1.6

A continuación se muestra el código de muestra que estoy ejecutando. cuando se ejecuta este trabajo de chispa, las uniones de trama de datos se realizan utilizando sortmergejoin en lugar de broadcastjoin. def joinedDf (sqlContext: SQLContext, ...

1 la respuesta

Spark Streaming: ¿Cómo puedo agregar más particiones a mi DStream?

Tengo una aplicación de transmisión por chispa que se ve así: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ ...

1 la respuesta

Cómo seleccionar todas las columnas que comienzan con una etiqueta común

Tengo un marco de datos en Spark 1.6 y quiero seleccionar solo algunas columnas. Los nombres de las columnas son como: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Sé que puedo hacer esto para seleccionar columnas ...

1 la respuesta

¿Hay alguna manera de barajar la colección en Spark?

Necesito barajar el archivo de texto con 2.2 * 10 ^ 9 líneas. ¿Hay alguna forma de cargarlo en la chispa, luego barajar cada partición en paralelo (para mí es suficiente barajar dentro del alcance de la partición) y luego volver al archivo?

1 la respuesta

crear JAR para Spark

Estoy siguiendo estoguía [https://spark.apache.org/docs/1.2.0/quick-start.html], pero no puedo ejecutar Scala en Spark, cuando intento crear el JAR consbt. yo tengosimple.sbt como: name := "Simple Project" version := "1.0" scalaVersion := ...

1 la respuesta

Igualdad de clase de caso en Apache Spark

¿Por qué la coincidencia de patrones en Spark no funciona igual que en Scala? Ver ejemplo a continuación ... funciónf() intenta hacer coincidir el patrón en la clase, que funciona en el REPL de Scala pero falla en Spark y da como resultado todos ...

1 la respuesta

Apache Spark: asigna el resultado de UDF a varias columnas de trama de datos

Estoy usando pyspark, cargando un archivo csv grande en un marco de datos con spark-csv, y como paso de preprocesamiento necesito aplicar una variedad de operaciones a los datos disponibles en una de las columnas (que contiene una cadena json) . ...

1 la respuesta

cargar bibliotecas externas dentro del código pyspark

Tengo un grupo de chispas que uso en modo local. Quiero leer un csv con la biblioteca externa de databricks spark.csv. Inicio mi aplicación de la siguiente manera: import os import sys os.environ["SPARK_HOME"] ...

1 la respuesta

Comparta SparkContext entre Java y R Apps bajo el mismo Master

Así que aquí está la configuración. Actualmente tengo dos aplicaciones Spark inicializadas. Necesito pasar datos entre ellos (preferiblemente a través de sparkcontext / sqlcontext compartido para poder consultar una tabla temporal). Actualmente ...

2 la respuesta

Cómo usar el método max en JavaPairRDD

Entonces, estaba tratando de usar max enJavaPairRDD pero no pudo hacerlo funcionar. JavaPairRDD<Integer, String> someRdd = (initialisation) String maxValue = someRdd.max() //not workingMi código :http://ideone.com/0YXCJw [http://ideone.com/0YXCJw]