Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

¿Cómo compartir Spark RDD entre 2 contextos de Spark?

Tengo un clúster de RMI. Cada servidor RMI tiene un contexto Spark. ¿Hay alguna manera de compartir un RDD entre diferentes contextos de Spark?

1 la respuesta

Spark streaming StreamingContext.start () - Error al iniciar el receptor 0

Tengo un proyecto que está utilizando la transmisión por chispa y lo estoy ejecutando con 'spark-submit', pero estoy recibiendo este error: 15/01/14 10:34:18 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error starting receiver 0 - ...

2 la respuesta

leer archivos recursivamente desde subdirectorios con chispa de s3 o sistema de archivos local

Estoy tratando de leer archivos de un directorio que contiene muchos subdirectorios. Los datos están en S3 y estoy tratando de hacer esto: val rdd ...

5 la respuesta

Spark estructurado streaming kafka convertir JSON sin esquema (inferir esquema)

Leí que Spark Structured Streaming no admite inferencia de esquema para leer mensajes de Kafka como JSON. ¿Hay alguna manera de recuperar el esquema de la misma manera que lo hace Spark Streaming? val dataFrame = ...

2 la respuesta

Redis en Spark: tarea no serializable

Utilizamos Redis en Spark para almacenar en caché nuestros pares clave-valor. Este es el código: import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = perhitFile.map(x => { val arr = x.split(" ") val readId = ...

1 la respuesta

Recursos / Documentación sobre cómo funciona el proceso de conmutación por error para el Spark Driver (y su YARN Container) en modo hilo-clúster

Estoy tratando de entender si el Spark Driver es un punto único de falla cuando se implementa en modo de clúster para Yarn. Por lo tanto, me gustaría obtener una mejor comprensión de las entrañas del proceso de conmutación por error con respecto ...

1 la respuesta

Acceso a dependencias disponibles en Scala pero no en PySpark

Estoy tratando de acceder a las dependencias de un RDD. En Scala es un código bastante simple: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy ...

3 la respuesta

Cómo crear una fila de una lista o matriz en Spark usando Scala

Estoy tratando de crear una fila (org.apache.spark.sql.catalyst.expressions.Row) basado en la entrada del usuario. No puedo crear una fila al azar. ¿Existe alguna funcionalidad para crear una fila?List oArray. Por ejemplo, si tengo un.csv ...

6 la respuesta

spark ssc.textFileStream no está actualizando ningún archivo del directorio

Estoy tratando de ejecutar el siguiente código usando eclipse (con maven conf) con 2 trabajadores y cada uno tiene 2 núcleos o también probé con spark-submit. public class StreamingWorkCount implements Serializable { public static ...

7 la respuesta

La aplicación Spark arroja javax.servlet.FilterRegistration

Estoy usando Scala para crear y ejecutar una aplicación Spark localmente. Mi build.sbt: name : "SparkDemo" version : "1.0" scalaVersion : "2.10.4" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.0" ...