Resultados de la búsqueda a petición "rdd"

1 la respuesta

El trabajo Spark Mlib FPGrowth falla con un error de memoria

Tengo un caso de uso bastante simple, pero un conjunto de resultados potencialmente muy grande. Mi código hace lo siguiente (en pyspark shell): from pyspark.mllib.fpm import FPGrowth data ...

1 la respuesta

¿Cómo aplanar listas anidadas en PySpark?

Tengo una estructura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]y quiero que se convierta: rdd = [1,2,3,4,5,6,7,8,9,10]¿Cómo escribo un mapa o reduzco la función para que funcione?

1 la respuesta

Filtrado de RDD según la condición y la extracción de datos coincidentes en Spark Python

Tengo los datos como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0ID de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 ...

1 la respuesta

Spark: aborde comandos intensivos de rendimiento como collect (), groupByKey (), reduceByKey ()

Sé que algunas de las acciones de Spark comocollect() Causar problemas de rendimiento. Ha sido citado endocumentación [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Para imprimir todos los elementos en el ...

1 la respuesta

RDD se divide y agrega en nuevos RDD

Tengo un RDD de(String,String,Int). Quiero reducirlo en base a las dos primeras cadenasY luego, en función de la primera cadena, quiero agrupar el (cadena, int) y ordenarlosDespués de ordenar, necesito agruparlos en pequeños grupos, cada uno con ...

2 la respuesta

Spark: diferencia de semántica entre reduce y reduceByKey

En la documentación de Spark, dice que el método RDDreduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] requiere una función binaria asociativa Y conmutativa. Sin embargo, el ...

1 la respuesta

Igualdad de clase de caso en Apache Spark

¿Por qué la coincidencia de patrones en Spark no funciona igual que en Scala? Ver ejemplo a continuación ... funciónf() intenta hacer coincidir el patrón en la clase, que funciona en el REPL de Scala pero falla en Spark y da como resultado todos ...

1 la respuesta

¿Cuál es la diferencia entre Spark DataSet y RDD?

Todavía estoy luchando por comprender todo el poder de los conjuntos de datos Spark recientemente introducidos. ¿Existen mejores prácticas sobre cuándo usar RDD y cuándo usar conjuntos de datos? En ...

1 la respuesta

¿Qué es un sombrío? ¿Cómo es diferente de mapPartitions?

Me he encontrado con elglom() método en RDD. Según la documentación Devuelve un RDD creado al fusionar todos los elementos dentro de cada partición en una matriz Haceglom baraja los datos a través de las particiones o solo devuelve los datos de ...

1 la respuesta

Cómo clasificar imágenes usando Spark y Caffe

Estoy usando Caffe para hacer la clasificación de imágenes, ¿puedo usar MAC OS X, Pyhton? En este momento sé cómo clasificar una lista de imágenes usando Caffe con Spark python, pero si quiero hacerlo más rápido, quiero usar Spark. Por lo ...