Resultados de la búsqueda a petición "rdd"
El trabajo Spark Mlib FPGrowth falla con un error de memoria
Tengo un caso de uso bastante simple, pero un conjunto de resultados potencialmente muy grande. Mi código hace lo siguiente (en pyspark shell): from pyspark.mllib.fpm import FPGrowth data ...
¿Cómo aplanar listas anidadas en PySpark?
Tengo una estructura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]y quiero que se convierta: rdd = [1,2,3,4,5,6,7,8,9,10]¿Cómo escribo un mapa o reduzco la función para que funcione?
Filtrado de RDD según la condición y la extracción de datos coincidentes en Spark Python
Tengo los datos como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0ID de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 ...
Spark: aborde comandos intensivos de rendimiento como collect (), groupByKey (), reduceByKey ()
Sé que algunas de las acciones de Spark comocollect() Causar problemas de rendimiento. Ha sido citado endocumentación [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Para imprimir todos los elementos en el ...
RDD se divide y agrega en nuevos RDD
Tengo un RDD de(String,String,Int). Quiero reducirlo en base a las dos primeras cadenasY luego, en función de la primera cadena, quiero agrupar el (cadena, int) y ordenarlosDespués de ordenar, necesito agruparlos en pequeños grupos, cada uno con ...
Spark: diferencia de semántica entre reduce y reduceByKey
En la documentación de Spark, dice que el método RDDreduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] requiere una función binaria asociativa Y conmutativa. Sin embargo, el ...
Igualdad de clase de caso en Apache Spark
¿Por qué la coincidencia de patrones en Spark no funciona igual que en Scala? Ver ejemplo a continuación ... funciónf() intenta hacer coincidir el patrón en la clase, que funciona en el REPL de Scala pero falla en Spark y da como resultado todos ...
¿Cuál es la diferencia entre Spark DataSet y RDD?
Todavía estoy luchando por comprender todo el poder de los conjuntos de datos Spark recientemente introducidos. ¿Existen mejores prácticas sobre cuándo usar RDD y cuándo usar conjuntos de datos? En ...
¿Qué es un sombrío? ¿Cómo es diferente de mapPartitions?
Me he encontrado con elglom() método en RDD. Según la documentación Devuelve un RDD creado al fusionar todos los elementos dentro de cada partición en una matriz Haceglom baraja los datos a través de las particiones o solo devuelve los datos de ...
Cómo clasificar imágenes usando Spark y Caffe
Estoy usando Caffe para hacer la clasificación de imágenes, ¿puedo usar MAC OS X, Pyhton? En este momento sé cómo clasificar una lista de imágenes usando Caffe con Spark python, pero si quiero hacerlo más rápido, quiero usar Spark. Por lo ...