Resultados de la búsqueda a petición "rdd"
PySpark: mapear un SchemaRDD en un SchemaRDD
Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...
Spark - repartition () vs coalesce ()
De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition () llamada coalesce () que permite evitar el movimiento de datos, pero solo si está ...
Conversión de RDD a La LabelPoint
Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...
Spark cache RDD no aparece en Spark History WebUI - Almacenamiento
estoy usandoSpark-1.4.1 enCDH-5.4.4. yo suelordd.cache() funcionar pero no muestra nada enStorage tab enSpark History WebUI ¿Alguien tiene los mismos problemas? ¿Como arreglarlo?
Generación de números aleatorios en PySpark
Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...
Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?
Tengo el siguiente trabajo brillante, tratando de mantener todo en la memoria: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...
¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?
Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?
Rendimiento de chispa para Scala vs Python
Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la ...
¿Cómo obtener datos de una partición específica en Spark RDD?
Quiero acceder a datos de una partición particular en Spark RDD. Puedo obtener la dirección de una partición de la siguiente manera: myRDD.partitions(0)Pero quiero obtener datos demyRDD.partitions(0) dividir. Probé la documentación oficial de ...
Pasar funciones de clase a PySpark RDD
Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.pyLo estoy importando a mi código aquí: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...