Resultados de la búsqueda a petición "apache-spark"
org.apache.spark.SparkException: tarea no serializable
Este es un ejemplo de código de trabajo: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = messages.map(new Function<Tuple2<String, ...
¿Cómo definir una variable de escala global en Spark que será compartida por todos los trabajadores?
En el programa Spark, QUIERO definir una variable como un mapa inmutable al que todos los programas de trabajo tendrán acceso sincrónicamente, ¿qué puedo hacer? ¿Debo definir un objeto scala? No solo el mapa inmutable, ¿qué pasa si quiero una ...
Cómo convertir objetos rdd a dataframe en spark
¿Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datosorg.apache.spark.sql.DataFrame. Convertí un marco de datos a rdd usando.rdd. Después de procesarlo, lo quiero de vuelta en el marco de ...
¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?
Supongamos que estoy haciendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: ...
HDFS de Hadoop con Spark
Soy nuevo en la computación en clúster e intento configurar un clúster mínimo de 2 nodos en Spark. Sobre lo que todavía estoy un poco confundido: ¿tengo que configurar una instalación completa de Hadoop primero o Spark se envía con una versión de ...
¿Cómo agrupar por múltiples teclas en spark?
Tengo un montón de tuplas que están en forma de claves y valores compuestos. Por ejemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quiero realizar operaciones tipo ...
La muestra de chispas es demasiado lenta
Estoy tratando de ejecutar una muestra aleatoria simple con Scala de una tabla existente, que contiene alrededor de 100e6 registros. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...
¿Cómo ejecutar Spark en Docker?
No se puede ejecutar Apache Spark en Docker. Cuando intento comunicarme desde mi controlador a spark master, recibo el siguiente error: 15/04/03 13:08:28 WARN TaskSchedulerImpl: El trabajo inicial no ha aceptado ningún recurso; verifique la ...
pyspark: dependencia de envío de jar con spark-submit
Escribí un script pyspark que lee dos archivos json,coGroup ellos y envía el resultado a un grupo de búsqueda elástica; todo funciona (principalmente) como se esperaba cuando lo ejecuto localmente, descargué elelasticsearch-hadoop archivo jar ...
Cómo usar el valor constante en UDF de Spark SQL (DataFrame)
Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...