Resultados de la búsqueda a petición "apache-spark"
¿Cómo compartir Spark RDD entre 2 contextos de Spark?
Tengo un clúster de RMI. Cada servidor RMI tiene un contexto Spark. ¿Hay alguna manera de compartir un RDD entre diferentes contextos de Spark?
Spark streaming StreamingContext.start () - Error al iniciar el receptor 0
Tengo un proyecto que está utilizando la transmisión por chispa y lo estoy ejecutando con 'spark-submit', pero estoy recibiendo este error: 15/01/14 10:34:18 ERROR ReceiverTracker: Deregistered receiver for stream 0: Error starting receiver 0 - ...
leer archivos recursivamente desde subdirectorios con chispa de s3 o sistema de archivos local
Estoy tratando de leer archivos de un directorio que contiene muchos subdirectorios. Los datos están en S3 y estoy tratando de hacer esto: val rdd ...
Spark estructurado streaming kafka convertir JSON sin esquema (inferir esquema)
Leí que Spark Structured Streaming no admite inferencia de esquema para leer mensajes de Kafka como JSON. ¿Hay alguna manera de recuperar el esquema de la misma manera que lo hace Spark Streaming? val dataFrame = ...
Redis en Spark: tarea no serializable
Utilizamos Redis en Spark para almacenar en caché nuestros pares clave-valor. Este es el código: import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = perhitFile.map(x => { val arr = x.split(" ") val readId = ...
Recursos / Documentación sobre cómo funciona el proceso de conmutación por error para el Spark Driver (y su YARN Container) en modo hilo-clúster
Estoy tratando de entender si el Spark Driver es un punto único de falla cuando se implementa en modo de clúster para Yarn. Por lo tanto, me gustaría obtener una mejor comprensión de las entrañas del proceso de conmutación por error con respecto ...
Acceso a dependencias disponibles en Scala pero no en PySpark
Estoy tratando de acceder a las dependencias de un RDD. En Scala es un código bastante simple: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy ...
Cómo crear una fila de una lista o matriz en Spark usando Scala
Estoy tratando de crear una fila (org.apache.spark.sql.catalyst.expressions.Row) basado en la entrada del usuario. No puedo crear una fila al azar. ¿Existe alguna funcionalidad para crear una fila?List oArray. Por ejemplo, si tengo un.csv ...
spark ssc.textFileStream no está actualizando ningún archivo del directorio
Estoy tratando de ejecutar el siguiente código usando eclipse (con maven conf) con 2 trabajadores y cada uno tiene 2 núcleos o también probé con spark-submit. public class StreamingWorkCount implements Serializable { public static ...
La aplicación Spark arroja javax.servlet.FilterRegistration
Estoy usando Scala para crear y ejecutar una aplicación Spark localmente. Mi build.sbt: name : "SparkDemo" version : "1.0" scalaVersion : "2.10.4" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.0" ...