Resultados de la búsqueda a petición "rdd"
Multiplicación matricial en Apache Spark [cerrado]
Estoy tratando de realizar una multiplicación de matrices usando Apache Spark y Java. Tengo 2 preguntas principales: ¿Cómo crear RDD que pueda representar una matriz en Apache Spark?¿Cómo multiplicar dos de estos RDD?
El marco de datos de Spark transforma varias filas en una columna
Soy un novato para encender, y quierotransformarabajomarco de datos de origen (cargar desde archivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | ...
Spark union de múltiples RDD
En mi código de cerdo hago esto: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Quiero hacer lo mismo con chispa. Sin embargo, desafortunadamente, veo que tengo que seguir haciéndolo por pares: first = ...
Genere la forma más rápida para crear RDD de matrices numpy
Mi aplicación de chispa está utilizando RDD de matrices numpy. En este momento, estoy leyendo mis datos de AWS S3, y está representado como un archivo de texto simple donde cada línea es un vector y cada elemento está separado por espacio, por ...
Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total
Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
Devuelve RDD de los mayores valores de N de otro RDD en SPARK
Estoy tratando de filtrar un RDD de tuplas para devolver las N tuplas más grandes basadas en valores clave. Necesito que el formato de devolución sea un RDD. Entonces el RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para las ...
¿Qué es RDD en chispa?
La definición dice: RDD es una colección distribuida inmutable de objetos No entiendo muy bien qué significa. ¿Es como los datos (objetos particionados) almacenados en el disco duro? Si es así, ¿cómo es que los RDD pueden tener clases definidas ...
Stackoverflow debido al largo linaje RDD
Tengo miles de archivos pequeños en HDFS. Necesita procesar un subconjunto de archivos un poco más pequeño (que nuevamente está en miles), fileList contiene una lista de rutas de archivos que deben procesarse. // fileList == list of filepaths in ...
Esquema de particionamiento predeterminado en Spark
Cuando ejecuto el siguiente comando: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark?
Desde mi IU Spark. ¿Qué significa omitido? [/imgs/cyvd1.png]