Resultados de la búsqueda a petición "rdd"

4 la respuesta

PySpark: mapear un SchemaRDD en un SchemaRDD

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

9 la respuesta

Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition () llamada coalesce () que permite evitar el movimiento de datos, pero solo si está ...

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

1 la respuesta

Spark cache RDD no aparece en Spark History WebUI - Almacenamiento

estoy usandoSpark-1.4.1 enCDH-5.4.4. yo suelordd.cache() funcionar pero no muestra nada enStorage tab enSpark History WebUI ¿Alguien tiene los mismos problemas? ¿Como arreglarlo?

2 la respuesta

Generación de números aleatorios en PySpark

Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...

4 la respuesta

Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?

Tengo el siguiente trabajo brillante, tratando de mantener todo en la memoria: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

2 la respuesta

¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?

Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?

1 la respuesta

Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la ...

1 la respuesta

¿Cómo obtener datos de una partición específica en Spark RDD?

Quiero acceder a datos de una partición particular en Spark RDD. Puedo obtener la dirección de una partición de la siguiente manera: myRDD.partitions(0)Pero quiero obtener datos demyRDD.partitions(0) dividir. Probé la documentación oficial de ...

1 la respuesta

Pasar funciones de clase a PySpark RDD

Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.pyLo estoy importando a mi código aquí: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...