Resultados de la búsqueda a petición "apache-spark"

Este es un ejemplo de código de trabajo: JavaPairDStream<String, String> messages = KafkaUtils.createStream(javaStreamingContext, zkQuorum, group, topicMap); messages.print(); JavaDStream<String> lines = messages.map(new Function<Tuple2<String, ...

global-variables scala

1 la respuesta

¿Cómo definir una variable de escala global en Spark que será compartida por todos los trabajadores?

En el programa Spark, QUIERO definir una variable como un mapa inmutable al que todos los programas de trabajo tendrán acceso sincrónicamente, ¿qué puedo hacer? ¿Debo definir un objeto scala? No solo el mapa inmutable, ¿qué pasa si quiero una ...

apache-spark-sql rdd scala

10 la respuesta

Cómo convertir objetos rdd a dataframe en spark

¿Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datosorg.apache.spark.sql.DataFrame. Convertí un marco de datos a rdd usando.rdd. Después de procesarlo, lo quiero de vuelta en el marco de ...

apache-spark-sql scala

16 la respuesta

¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?

Supongamos que estoy haciendo algo como: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: ...

hadoop

1 la respuesta

HDFS de Hadoop con Spark

Soy nuevo en la computación en clúster e intento configurar un clúster mínimo de 2 nodos en Spark. Sobre lo que todavía estoy un poco confundido: ¿tengo que configurar una instalación completa de Hadoop primero o Spark se envía con una versión de ...

pyspark python

2 la respuesta

¿Cómo agrupar por múltiples teclas en spark?

Tengo un montón de tuplas que están en forma de claves y valores compuestos. Por ejemplo, tfile.collect() = [(('id1','pd1','t1'),5.0), (('id2','pd2','t2'),6.0), (('id1','pd1','t2'),7.5), (('id1','pd1','t3'),8.1) ]Quiero realizar operaciones tipo ...

scala performance random

2 la respuesta

La muestra de chispas es demasiado lenta

Estoy tratando de ejecutar una muestra aleatoria simple con Scala de una tabla existente, que contiene alrededor de 100e6 registros. import org.apache.spark.sql.SaveMode val nSamples = 3e5.toInt val frac = 1e-5 val table = ...

docker

2 la respuesta

¿Cómo ejecutar Spark en Docker?

No se puede ejecutar Apache Spark en Docker. Cuando intento comunicarme desde mi controlador a spark master, recibo el siguiente error: 15/04/03 13:08:28 WARN TaskSchedulerImpl: El trabajo inicial no ha aceptado ningún recurso; verifique la ...

elasticsearch pyspark python

1 la respuesta

pyspark: dependencia de envío de jar con spark-submit

Escribí un script pyspark que lee dos archivos json,coGroup ellos y envía el resultado a un grupo de búsqueda elástica; todo funciona (principalmente) como se esperaba cuando lo ejecuto localmente, descargué elelasticsearch-hadoop archivo jar ...

scala apache-spark-sql

1 la respuesta

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

Tengo un marco de datos que incluyetimestamp. Para agregar por tiempo (minuto, hora o día), he intentado como: val toSegment = udf((timestamp: String) => { val asLong = timestamp.toLong asLong - asLong % 3600000 // period = 1 hour }) val df: ...

Página 95 de 165

93 949596 97

Resultados de la búsqueda a petición "apache-spark"

org.apache.spark.SparkException: tarea no serializable

¿Cómo definir una variable de escala global en Spark que será compartida por todos los trabajadores?

Cómo convertir objetos rdd a dataframe en spark

Etiquetas Populares

¿Cómo cambiar los tipos de columna en el DataFrame de Spark SQL?

HDFS de Hadoop con Spark

¿Cómo agrupar por múltiples teclas en spark?

La muestra de chispas es demasiado lenta

¿Cómo ejecutar Spark en Docker?

pyspark: dependencia de envío de jar con spark-submit

Cómo usar el valor constante en UDF de Spark SQL (DataFrame)

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares