Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

org.apache.spark.SparkException: tarea no serializable

Este es un ejemplo de código de trabajo: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = messages.map(new Function<Tuple2<String, ...

1 la respuesta

¿Cómo definir una variable de escala global en Spark que será compartida por todos los trabajadores?

En el programa Spark, QUIERO definir una variable como un mapa inmutable al que todos los programas de trabajo tendrán acceso sincrónicamente, ¿qué puedo hacer? ¿Debo definir un objeto scala? No solo el mapa inmutable, ¿qué pasa si quiero una ...

10 la respuesta

Cómo convertir objetos rdd a dataframe en spark

¿Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datosorg.apache.spark.sql.DataFrame. Convertí un marco de datos a rdd usando.rdd. Después de procesarlo, lo quiero de vuelta en el marco de ...

16 la respuesta

¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?

Supongamos que estoy haciendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: ...

1 la respuesta

HDFS de Hadoop con Spark

Soy nuevo en la computación en clúster e intento configurar un clúster mínimo de 2 nodos en Spark. Sobre lo que todavía estoy un poco confundido: ¿tengo que configurar una instalación completa de Hadoop primero o Spark se envía con una versión de ...

2 la respuesta

¿Cómo agrupar por múltiples teclas en spark?

Tengo un montón de tuplas que están en forma de claves y valores compuestos. Por ejemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quiero realizar operaciones tipo ...

2 la respuesta

La muestra de chispas es demasiado lenta

Estoy tratando de ejecutar una muestra aleatoria simple con Scala de una tabla existente, que contiene alrededor de 100e6 registros. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...

2 la respuesta

¿Cómo ejecutar Spark en Docker?

No se puede ejecutar Apache Spark en Docker. Cuando intento comunicarme desde mi controlador a spark master, recibo el siguiente error: 15/04/03 13:08:28 WARN TaskSchedulerImpl: El trabajo inicial no ha aceptado ningún recurso; verifique la ...

1 la respuesta

pyspark: dependencia de envío de jar con spark-submit

Escribí un script pyspark que lee dos archivos json,coGroup ellos y envía el resultado a un grupo de búsqueda elástica; todo funciona (principalmente) como se esperaba cuando lo ejecuto localmente, descargué elelasticsearch-hadoop archivo jar ...

1 la respuesta

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...