Resultados de la búsqueda a petición "apache-spark"
¿Cómo se realiza el bloqueo de IO en el trabajo de apache spark?
¿Qué sucede si, cuando atravieso RDD, necesito calcular valores en el conjunto de datos llamando al servicio externo (bloqueo)? ¿Cómo crees que se podría lograr? valores val:Future[RDD[Double]] = Future sequence tasks Intenté crear una lista de ...
java.io.EOFException en Spark EC2 Cluster al enviar trabajos mediante programación
Realmente necesito tu ayuda para entender lo que estoy haciendo mal. La intención de mi experimento es ejecutar el trabajo de chispa programáticamente en lugar de usar ./spark-shell o ./spark-submit (ambos funcionan para mí) Entorno: he creado ...
leer todos los archivos de HDFS de forma recursiva en spark java api
Estoy usando spark para leer datos de todos los archivos de HDFS en un único RDD desde un directorio y también sus subdirectorios. No pude encontrar ningún método eficiente para hacer eso. Así que intenté escribir un código personalizado como se ...
¿Cómo funciona DAG debajo de las cubiertas en RDD?
losTrabajo de investigación de chispa [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]ha prescrito un nuevo modelo de programación distribuida sobre Hadoop MapReduce clásico, alegando la simplificación y el gran aumento del ...
Consulta de datos en Cassandra a través de Spark en un proyecto Java Maven
Estoy tratando de hacer un código simple donde creo un esquema, inserto algunas tablas y luego extraigo información e la imprimo. Sin embargo, recibo un error. Estoy usando el conector de chispa Datastax cassandra. He estado usando estos dos ...
Problema de transmisión de Spark Kafka
Estoy usando maven He agregado las siguientes dependencias <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.1.0</version> </dependency> <dependency> <!-- Spark ...
¿Por qué falla Spark Cassandra Connector con NoHostAvailableException?
Tengo problemas para que Spark Cassandra Connector funcione en Scala. Estoy usando estas versiones: Scala 2.10.4spark-core 1.0.2cassandra-thrift 2.1.0 (mi cassandra instalada es v2.1.0)cassandra-clientutil 2.1.0cassandra-driver-core 2.0.4 ...
¿Cómo aplico el esquema con nullable = false a la lectura de json?
Estoy tratando de escribir algunos casos de prueba usando archivos json para marcos de datos (mientras que la producción sería parquet). Estoy usando el marco base de pruebas de chispa y me encuentro con un inconveniente al afirmar que los marcos ...
Chispa: Reducir no. de archivos de salida
Escribí un programa Spark que imita la funcionalidad de un trabajo Map Map existente. El trabajo de MR dura unos 50 minutos todos los días, ¡pero el trabajo de Spark solo tomó 9 minutos! ¡Eso es genial! Cuando miré el directorio de salida, noté ...
Declaraciones de Spark Datastax Java API Select
Estoy usando un tutorial aquí en este Github para ejecutar chispa en cassandra usando un proyecto java maven: https://github.com/datastax/spark-cassandra-connector [https://github.com/datastax/spark-cassandra-connector]. He descubierto cómo usar ...