Resultados de la búsqueda a petición "apache-spark"
Combina dos RDD en Spark Scala
Tengo dos RDD. rdd1 = (Cadena, Cadena) key1, value11 key2, value12 key3, value13rdd2 = (Cadena, Cadena) key2, value22 key3, value23 key4, value24Necesito formar otro RDD con filas combinadas de rdd1 y rdd2, la salida debería verse así: key2, ...
Procese Spark Streaming rdd y almacene en un solo archivo HDFS
Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...
Colmena UDF para seleccionar todo excepto algunas columnas
El patrón común de creación de consultas en HiveQL (y SQL en general) es seleccionar todas las columnas (SELECT *) o un conjunto de columnas explícitamente especificado (SELECT A, B, C) SQL no tiene un mecanismo incorporado para seleccionar todos ...
Configuración de classpaths de spark en EC2: spark.driver.extraClassPath y spark.executor.extraClassPath
Reducción del tamaño del archivo jar de la aplicación al proporcionar spark-classPath para las dependencias de Maven: Mi clúster tiene 3 instancias ec2 en las que se está ejecutando hadoop y spark. Si construyo jar con dependencias de maven, se ...
¿Cómo generar tuplas de (etiqueta original, etiqueta predicha) en Spark con MLlib?
Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objetivo es generar tuplas de (orinalLabelInData, predicttedLabel). Entonces esas tuplas se pueden usar para fines de evaluación del modelo. ¿Cuál es la mejor ...
La consulta de Spark funciona muy lentamente
Tengo un clúster en AWS con 2 esclavos y 1 maestro. Todas las instancias son de tipo m1.large. Estoy ejecutando la versión 1.4 de spark. Estoy comparando el rendimiento de la chispa sobre 4 millones de datos provenientes del cambio rojo. Disparé ...
Spark cache RDD no aparece en Spark History WebUI - Almacenamiento
estoy usandoSpark-1.4.1 enCDH-5.4.4. yo suelordd.cache() funcionar pero no muestra nada enStorage tab enSpark History WebUI ¿Alguien tiene los mismos problemas? ¿Como arreglarlo?
¿Cómo agregar un archivo de configuración a classpath de todos los ejecutores de Spark en Spark 1.2.0?
Estoy usando Typesafe Config,https://github.com/typesafehub/config [https://github.com/typesafehub/config], para parametrizar un trabajo de Spark que se ejecuta en modo yarn-cluster con un archivo de configuración. El comportamiento ...
¿Cómo pasar archivos al nodo maestro?
Ya escribí código en Python para implementar la clasificación binaria, y quiero paralelizar este proceso de clasificación basado en diferentes archivos de datos en mi computadora local usando Apache-Spark. Ya he hecho los siguientes pasos: He ...
Spark Launcher esperando la finalización del trabajo infinitamente
Estoy tratando de enviar un trabajo JAR con Spark en el clúster YARN desde el código Java. Estoy usando SparkLauncher para enviar el ejemplo de SparkPi: Process spark = new ...