Resultados de la búsqueda a petición "rdd"

1 la respuesta

¿Qué es un sombrío? ¿Cómo es diferente de mapPartitions?

Me he encontrado con elglom() método en RDD. Según la documentación Devuelve un RDD creado al fusionar todos los elementos dentro de cada partición en una matriz Haceglom baraja los datos a través de las particiones o solo devuelve los datos de ...

1 la respuesta

Cómo clasificar imágenes usando Spark y Caffe

Estoy usando Caffe para hacer la clasificación de imágenes, ¿puedo usar MAC OS X, Pyhton? En este momento sé cómo clasificar una lista de imágenes usando Caffe con Spark python, pero si quiero hacerlo más rápido, quiero usar Spark. Por lo ...

1 la respuesta

Valor del acumulador de chispas no leído por tarea

Estoy inicializando un acumulador final Accumulator<Integer> accum = sc.accumulator(0); Y luego, mientras estoy en la función de mapa, intento incrementar el acumulador, luego uso el valor del acumulador para establecer una ...

1 la respuesta

Spark leyendo python3 pickle como entrada

Mis datos están disponibles como conjuntos de archivos en escabeche de Python 3. La mayoría de ellos son serialización de pandasDataFrames. Me gustaría comenzar a usar Spark porque necesito más memoria y CPU que una computadora puede tener. ...

1 la respuesta

Cómo convertir un RDD [Fila] de nuevo a DataFrame [duplicado]

Esta pregunta ya tiene una respuesta aquí: Cómo convertir objetos rdd a dataframe en spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respuestasHe estado jugando con la conversión de RDD a DataFrames y ...

1 la respuesta

Obtenga el valor máximo para cada clave en un Spark RDD

¿Cuál es la mejor manera de devolver la fila máxima (valor) asociada con cada clave única en una chispa RDD? Estoy usando python y probé Math max, mapeo y reducción por claves y agregados. ¿Hay una manera eficiente de hacer esto? Posiblemente un ...

1 la respuesta

java.io.NotSerializableException en Spark Streaming con checkpointing habilitado

código a continuación: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val ...

1 la respuesta

Spark: Guardar RDD en una ruta ya existente en HDFS

Puedo guardar la salida RDD en HDFS consaveAsTextFilemétodo. Este método genera una excepción si la ruta del archivo ya existe. Tengo un caso de uso donde necesito guardar el RDDS en una ruta de archivo ya existente en HDFS. ¿Hay alguna manera ...

1 la respuesta

cómo combinar 3 pares de RDD

Tengo una especie de requisito complejo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...

1 la respuesta

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...