Resultados de la búsqueda a petición "rdd"

1 la respuesta

Multiplicación matricial en Apache Spark [cerrado]

Estoy tratando de realizar una multiplicación de matrices usando Apache Spark y Java. Tengo 2 preguntas principales: ¿Cómo crear RDD que pueda representar una matriz en Apache Spark?¿Cómo multiplicar dos de estos RDD?

2 la respuesta

El marco de datos de Spark transforma varias filas en una columna

Soy un novato para encender, y quierotransformarabajomarco de datos de origen (cargar desde archivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | ...

2 la respuesta

Spark union de múltiples RDD

En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...

3 la respuesta

Genere la forma más rápida para crear RDD de matrices numpy

Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y está representado como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ...

0 la respuesta

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

2 la respuesta

Devuelve RDD de los mayores valores de N de otro RDD en SPARK

Estoy tratando de filtrar un RDD de tuplas para devolver las N tuplas más grandes basadas en valores clave. Necesito que el formato de devolución sea un RDD. Entonces el RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para las ...

8 la respuesta

¿Qué es RDD en chispa?

La definición dice: RDD es una colección distribuida inmutable de objetos No entiendo muy bien qué significa. ¿Es como los datos (objetos particionados) almacenados en el disco duro? Si es así, ¿cómo es que los RDD pueden tener clases definidas ...

1 la respuesta

Stackoverflow debido al largo linaje RDD

Tengo miles de archivos pequeños en HDFS. Necesita procesar un subconjunto de archivos un poco más pequeño (que nuevamente está en miles), fileList contiene una lista de rutas de archivos que deben procesarse. // fileList == list of filepaths in ...

1 la respuesta

Esquema de particionamiento predeterminado en Spark

Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

1 la respuesta

¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark?

Desde mi IU Spark. ¿Qué significa omitido? [/imgs/cyvd1.png]