Resultados de la búsqueda a petición "rdd"

Estoy tratando de realizar una multiplicación de matrices usando Apache Spark y Java. Tengo 2 preguntas principales: ¿Cómo crear RDD que pueda representar una matriz en Apache Spark?¿Cómo multiplicar dos de estos RDD?

python dataframe apache-spark-sql apache-spark

2 la respuesta

El marco de datos de Spark transforma varias filas en una columna

Soy un novato para encender, y quierotransformarabajomarco de datos de origen (cargar desde archivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | ...

apache-spark python pyspark

2 la respuesta

Spark union de múltiples RDD

En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...

numpy apache-spark pyspark python

3 la respuesta

Genere la forma más rápida para crear RDD de matrices numpy

Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y está representado como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ...

apache-spark storage memory

0 la respuesta

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

apache-spark python pyspark

2 la respuesta

Devuelve RDD de los mayores valores de N de otro RDD en SPARK

Estoy tratando de filtrar un RDD de tuplas para devolver las N tuplas más grandes basadas en valores clave. Necesito que el formato de devolución sea un RDD. Entonces el RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para las ...

apache-spark hadoop scala

8 la respuesta

¿Qué es RDD en chispa?

La definición dice: RDD es una colección distribuida inmutable de objetos No entiendo muy bien qué significa. ¿Es como los datos (objetos particionados) almacenados en el disco duro? Si es así, ¿cómo es que los RDD pueden tener clases definidas ...

apache-spark scala

1 la respuesta

Stackoverflow debido al largo linaje RDD

Tengo miles de archivos pequeños en HDFS. Necesita procesar un subconjunto de archivos un poco más pequeño (que nuevamente está en miles), fileList contiene una lista de rutas de archivos que deben procesarse. // fileList == list of filepaths in ...

apache-spark partitioning

1 la respuesta

Esquema de particionamiento predeterminado en Spark

Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

apache-spark

1 la respuesta

¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark?

Desde mi IU Spark. ¿Qué significa omitido? [/imgs/cyvd1.png]

Página 10 de 12

8 91011 12

Resultados de la búsqueda a petición "rdd"

Multiplicación matricial en Apache Spark [cerrado]

El marco de datos de Spark transforma varias filas en una columna

Spark union de múltiples RDD

Etiquetas Populares

Genere la forma más rápida para crear RDD de matrices numpy

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Devuelve RDD de los mayores valores de N de otro RDD en SPARK

¿Qué es RDD en chispa?

Stackoverflow debido al largo linaje RDD

Esquema de particionamiento predeterminado en Spark

¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "rdd"

Etiquetas Populares