Resultados de la búsqueda a petición "apache-spark"

2 la respuesta

Combina dos RDD en Spark Scala

Tengo dos RDD. rdd1 = (Cadena, Cadena) key1, value11 key2, value12 key3, value13rdd2 = (Cadena, Cadena) key2, value22 key3, value23 key4, value24Necesito formar otro RDD con filas combinadas de rdd1 y rdd2, la salida debería verse así: key2, ...

2 la respuesta

Procese Spark Streaming rdd y almacene en un solo archivo HDFS

Estoy usando Kafka Spark Streaming para obtener datos de transmisión. val lines = KafkaUtils.createDirectStream[Array[Byte], String, DefaultDecoder, StringDecoder](ssc, kafkaConf, Set(topic)).map(_._2)Estoy usando este DStream y procesando ...

1 la respuesta

Colmena UDF para seleccionar todo excepto algunas columnas

El patrón común de creación de consultas en HiveQL (y SQL en general) es seleccionar todas las columnas (SELECT *) o un conjunto de columnas explícitamente especificado (SELECT A, B, C) SQL no tiene un mecanismo incorporado para seleccionar todos ...

2 la respuesta

Configuración de classpaths de spark en EC2: spark.driver.extraClassPath y spark.executor.extraClassPath

Reducción del tamaño del archivo jar de la aplicación al proporcionar spark-classPath para las dependencias de Maven: Mi clúster tiene 3 instancias ec2 en las que se está ejecutando hadoop y spark. Si construyo jar con dependencias de maven, se ...

1 la respuesta

¿Cómo generar tuplas de (etiqueta original, etiqueta predicha) en Spark con MLlib?

Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objetivo es generar tuplas de (orinalLabelInData, predicttedLabel). Entonces esas tuplas se pueden usar para fines de evaluación del modelo. ¿Cuál es la mejor ...

2 la respuesta

La consulta de Spark funciona muy lentamente

Tengo un clúster en AWS con 2 esclavos y 1 maestro. Todas las instancias son de tipo m1.large. Estoy ejecutando la versión 1.4 de spark. Estoy comparando el rendimiento de la chispa sobre 4 millones de datos provenientes del cambio rojo. Disparé ...

1 la respuesta

Spark cache RDD no aparece en Spark History WebUI - Almacenamiento

estoy usandoSpark-1.4.1 enCDH-5.4.4. yo suelordd.cache() funcionar pero no muestra nada enStorage tab enSpark History WebUI ¿Alguien tiene los mismos problemas? ¿Como arreglarlo?

2 la respuesta

¿Cómo agregar un archivo de configuración a classpath de todos los ejecutores de Spark en Spark 1.2.0?

Estoy usando Typesafe Config,https://github.com/typesafehub/config [https://github.com/typesafehub/config], para parametrizar un trabajo de Spark que se ejecuta en modo yarn-cluster con un archivo de configuración. El comportamiento ...

1 la respuesta

¿Cómo pasar archivos al nodo maestro?

Ya escribí código en Python para implementar la clasificación binaria, y quiero paralelizar este proceso de clasificación basado en diferentes archivos de datos en mi computadora local usando Apache-Spark. Ya he hecho los siguientes pasos: He ...

3 la respuesta

Spark Launcher esperando la finalización del trabajo infinitamente

Estoy tratando de enviar un trabajo JAR con Spark en el clúster YARN desde el código Java. Estoy usando SparkLauncher para enviar el ejemplo de SparkPi: Process spark = new ...