Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

Enviar la aplicación de chispa como un trabajo de hilo desde Eclipse y Spark Context

Ya puedo enviarlocal trabajos de chispa (escritos en Scala) desde mi IDE de Eclipse. Sin embargo, me gustaría modificar mi contexto de Spark (dentro de mi aplicación) para que cuando 'Ejecute' la aplicación (dentro de Eclipse), el trabajo se ...

1 la respuesta

¿Cómo puedo crear pares clave-valor?

He usadogroupByKey en mis pares clave-valor. Ahora tengo esto (clave, Iterable). Quiero hacer estos pares clave-valor a partir de él: ((clave, (un elemento de la lista)), 1) para toda la lista v. ¿Cómo puedo hacer esto? ¿Cómo se puede recorrer ...

2 la respuesta

Finalizan los trabajos de Spark pero la aplicación tarda en cerrarse

Ejecución del trabajo de chispa utilizando scala, como se esperaba, todos los trabajos están terminando a tiempo, pero de alguna manera algunos registros de INFORMACIÓN se imprimen durante 20-25 minutos antes de que el trabajo ...

1 la respuesta

Función Apache Spark Window con columna anidada

No estoy seguro de que esto sea un error (o simplemente una sintaxis incorrecta). Busqué alrededor y no vi esto mencionado en otra parte, así que pregunto aquí antes de presentar un informe de error. Estoy tratando de usar una función de Windows ...

1 la respuesta

pyspark y reduceByKey: cómo hacer una suma simple

Estoy intentando un código en Spark (pyspark) para una tarea. La primera vez que uso este entorno, seguro que extraño algo ... Tengo un conjunto de datos simple llamado c_views. Si corroc_views.collect() yo obtengo […] (u'ABC', 100), (u'DEF', ...

1 la respuesta

Error al ejecutar construcciones Scala con Spark 1.5.2 y Scala 2.11.7

Tengo un archivo de objeto scala simple con el siguiente contenido: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object X { def main(args: Array[String]) { val params = Map[String, ...

1 la respuesta

Desbordamiento de pila al procesar varias columnas con un UDF

tengo unDataFrame con muchas columnas destr tipo, y quiero aplicar una función a todas esas columnas, sin renombrar sus nombres o agregar más columnas, intenté usar unfor-in ejecución de buclewithColumn (ver ejemplo más abajo), pero normalmente ...

1 la respuesta

RDD se divide y agrega en nuevos RDD

Tengo un RDD de(String,String,Int). Quiero reducirlo en base a las dos primeras cadenasY luego, en función de la primera cadena, quiero agrupar el (cadena, int) y ordenarlosDespués de ordenar, necesito agruparlos en pequeños grupos, cada uno con ...

2 la respuesta

Cómo consultar MongoDB a través de Spark para consultas geoespaciales

¿Hay alguna forma de usar MongoDB con Spark para consultas geoespaciales? No puedo ver cómo hacer eso con Stratio.

1 la respuesta

función de ventana first_value en pyspark

Estoy usando pyspark 1.5 obteniendo mis datos de las tablas de Hive e intentando usar las funciones de ventanas. De acuerdo aesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe una función ...