Resultados de la búsqueda a petición "rdd"

1 la respuesta

Excepción al acceder a KafkaOffset desde RDD

Tengo un consumidor de Spark que se transmite desde Kafka. Estoy tratando de gestionar las compensaciones para la semántica de una sola vez. Sin embargo, al acceder al desplazamiento, arroja la siguiente ...

1 la respuesta

Spark: Guardar RDD en una ruta ya existente en HDFS

Puedo guardar la salida RDD en HDFS consaveAsTextFilemétodo. Este método genera una excepción si la ruta del archivo ya existe. Tengo un caso de uso donde necesito guardar el RDDS en una ruta de archivo ya existente en HDFS. ¿Hay alguna manera ...

2 la respuesta

¿Cómo puedo guardar un RDD en HDFS y luego volver a leerlo?

Tengo un RDD cuyos elementos son de tipo (Long, String). Por alguna razón, quiero guardar todo el RDD en el HDFS, y luego también leer ese RDD en un programa Spark. ¿Es posible hacer eso? Y si es así, ¿cómo?

1 la respuesta

¿La chispa mantiene todos los elementos de un RDD [K, V] para una clave particular en una sola partición después de "groupByKey" incluso si los datos para una clave son muy grandes?

Considere que tengo un PairedRDD de, digamos, 10 particiones. Pero las claves no se distribuyen uniformemente, es decir, todas las 9 particiones que tienen datos pertenecen a una sola clave, por ejemploa y el resto de las llaves dicenb,c solo hay ...

1 la respuesta

Impacto en el rendimiento de la API RDD frente a las UDF combinadas con la API DataFrame

(Pregunta específica de Scala). Si bien los documentos de Spark fomentan el uso de DataFrame API cuando sea posible, si DataFrame API es insuficiente, la opción suele ser recurrir a RDD API o usar UDF. ¿Existe una diferencia de rendimiento ...

1 la respuesta

Spark RDD: ¿Cómo calcular las estadísticas de manera más eficiente?

Suponiendo la existencia de un RDD de tuplas similar al siguiente: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...¿Cuál es la forma más eficiente (e idealmente distribuida) de calcular las estadísticas correspondientes ...

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

1 la respuesta

java.io.NotSerializableException en Spark Streaming con checkpointing habilitado

código a continuación: def main(args: Array[String]) { val sc = new SparkContext val sec = Seconds(3) val ssc = new StreamingContext(sc, sec) ssc.checkpoint("./checkpoint") val rdd = ssc.sparkContext.parallelize(Seq("a","b","c")) val ...

1 la respuesta

Spark: ¿Cómo "reduceByKey" cuando las claves son matrices numpy que no son hashaable?

Tengo un RDD de elementos (clave, valor). Las claves son matrices NumPy. Las matrices NumPy no son hashable, y esto causa un problema cuando intento hacer unreduceByKey operación. ¿Hay alguna manera de proporcionar el contexto Spark con mi ...

1 la respuesta

Particionamiento inesperado de Spark HashPartitioner

estoy usandoHashPartioner pero obteniendo un resultado inesperado. Estoy usando 3 cadenas diferentes como claves, y estoy dando el parámetro de partición como 3, por lo que espero 3 particiones. val cars = Array("Honda", "Toyota", "Kia") val ...