Resultados de la búsqueda a petición "rdd"

Estoy cargando un archivo de objetos JSON como PySparkSchemaRDD. Quiero cambiar la "forma" de los objetos (básicamente, los estoy aplanando) y luego insertarlos en una tabla de Hive. El problema que tengo es que lo siguiente devuelve ...

apache-spark distributed-computing

9 la respuesta

Spark - repartition () vs coalesce ()

De acuerdo con Learning Spark Tenga en cuenta que repartir sus datos es una operación bastante costosa. Spark también tiene una versión optimizada de repartition () llamada coalesce () que permite evitar el movimiento de datos, pero solo si está ...

scala apache-spark-sql apache-spark apache-spark-mllib

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

cloudera-cdh apache-spark

1 la respuesta

Spark cache RDD no aparece en Spark History WebUI - Almacenamiento

estoy usandoSpark-1.4.1 enCDH-5.4.4. yo suelordd.cache() funcionar pero no muestra nada enStorage tab enSpark History WebUI ¿Alguien tiene los mismos problemas? ¿Como arreglarlo?

python random apache-spark pyspark

2 la respuesta

Generación de números aleatorios en PySpark

Comencemos con una función simple que siempre devuelve un entero aleatorio: import numpy as np def f(x): return np.random.randint(1000)y un RDD lleno de ceros y mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como el RDD anterior no ...

shuffle apache-spark persist

4 la respuesta

Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?

Tengo el siguiente trabajo brillante, tratando de mantener todo en la memoria: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

spark-streaming apache-spark

2 la respuesta

¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?

Los Spark RDD se construyen de manera inmutable, tolerante a fallas y resistente. ¿Los RDD satisfacen la inmutabilidad en todos los escenarios? ¿O hay algún caso, ya sea en Streaming o Core, donde RDD podría no satisfacer la inmutabilidad?

python apache-spark scala performance

1 la respuesta

Rendimiento de chispa para Scala vs Python

Prefiero Python sobre Scala. Pero, como Spark está escrito de forma nativa en Scala, esperaba que mi código se ejecute más rápido en Scala que en la versión de Python por razones obvias. Con esa suposición, pensé en aprender y escribir la ...

apache-spark

1 la respuesta

¿Cómo obtener datos de una partición específica en Spark RDD?

Quiero acceder a datos de una partición particular en Spark RDD. Puedo obtener la dirección de una partición de la siguiente manera: myRDD.partitions(0)Pero quiero obtener datos demyRDD.partitions(0) dividir. Probé la documentación oficial de ...

apache-spark python pyspark

1 la respuesta

Pasar funciones de clase a PySpark RDD

Tengo una clase llamada some_class () en un archivo de Python aquí: /some-folder/app/bin/file.pyLo estoy importando a mi código aquí: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...

Página 8 de 12

6 789 10

Resultados de la búsqueda a petición "rdd"

PySpark: mapear un SchemaRDD en un SchemaRDD

Spark - repartition () vs coalesce ()

Conversión de RDD a La LabelPoint

Etiquetas Populares

Spark cache RDD no aparece en Spark History WebUI - Almacenamiento

Generación de números aleatorios en PySpark

Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?

¿Habrá algún escenario en el que los Spark RDD no puedan satisfacer la inmutabilidad?

Rendimiento de chispa para Scala vs Python

¿Cómo obtener datos de una partición específica en Spark RDD?

Pasar funciones de clase a PySpark RDD

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "rdd"

Etiquetas Populares