Resultados de la búsqueda a petición "apache-spark"
Enviar la aplicación de chispa como un trabajo de hilo desde Eclipse y Spark Context
Ya puedo enviarlocal trabajos de chispa (escritos en Scala) desde mi IDE de Eclipse. Sin embargo, me gustaría modificar mi contexto de Spark (dentro de mi aplicación) para que cuando 'Ejecute' la aplicación (dentro de Eclipse), el trabajo se ...
¿Cómo puedo crear pares clave-valor?
He usadogroupByKey en mis pares clave-valor. Ahora tengo esto (clave, Iterable). Quiero hacer estos pares clave-valor a partir de él: ((clave, (un elemento de la lista)), 1) para toda la lista v. ¿Cómo puedo hacer esto? ¿Cómo se puede recorrer ...
Finalizan los trabajos de Spark pero la aplicación tarda en cerrarse
Ejecución del trabajo de chispa utilizando scala, como se esperaba, todos los trabajos están terminando a tiempo, pero de alguna manera algunos registros de INFORMACIÓN se imprimen durante 20-25 minutos antes de que el trabajo ...
Función Apache Spark Window con columna anidada
No estoy seguro de que esto sea un error (o simplemente una sintaxis incorrecta). Busqué alrededor y no vi esto mencionado en otra parte, así que pregunto aquí antes de presentar un informe de error. Estoy tratando de usar una función de Windows ...
pyspark y reduceByKey: cómo hacer una suma simple
Estoy intentando un código en Spark (pyspark) para una tarea. La primera vez que uso este entorno, seguro que extraño algo ... Tengo un conjunto de datos simple llamado c_views. Si corroc_views.collect() yo obtengo […] (u'ABC', 100), (u'DEF', ...
Error al ejecutar construcciones Scala con Spark 1.5.2 y Scala 2.11.7
Tengo un archivo de objeto scala simple con el siguiente contenido: import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object X { def main(args: Array[String]) { val params = Map[String, ...
Desbordamiento de pila al procesar varias columnas con un UDF
tengo unDataFrame con muchas columnas destr tipo, y quiero aplicar una función a todas esas columnas, sin renombrar sus nombres o agregar más columnas, intenté usar unfor-in ejecución de buclewithColumn (ver ejemplo más abajo), pero normalmente ...
RDD se divide y agrega en nuevos RDD
Tengo un RDD de(String,String,Int). Quiero reducirlo en base a las dos primeras cadenasY luego, en función de la primera cadena, quiero agrupar el (cadena, int) y ordenarlosDespués de ordenar, necesito agruparlos en pequeños grupos, cada uno con ...
Cómo consultar MongoDB a través de Spark para consultas geoespaciales
¿Hay alguna forma de usar MongoDB con Spark para consultas geoespaciales? No puedo ver cómo hacer eso con Stratio.
función de ventana first_value en pyspark
Estoy usando pyspark 1.5 obteniendo mis datos de las tablas de Hive e intentando usar las funciones de ventanas. De acuerdo aesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe una función ...