Resultados de la búsqueda a petición "rdd"

2 la respuesta

¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?

Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...

5 la respuesta

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...

2 la respuesta

Convierta un RDD a iterable: PySpark?

Tengo un RDD que estoy creando cargando un archivo de texto y preprocesándolo. No quiero recopilarlo y guardarlo en el disco o la memoria (datos completos), sino que quiero pasarlo a alguna otra función en Python que consuma los datos uno tras ...

1 la respuesta

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...

4 la respuesta

¿Cómo divido un RDD en dos o más RDD?

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto esScala Spark: ¿División dividida en varios RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que sigue ...

3 la respuesta

Convirtiendo RDD [org.apache.spark.sql.Row] a RDD [org.apache.spark.mllib.linalg.Vector]

Soy relativamente nuevo en Spark y Scala. Estoy comenzando con el siguiente marco de datos (columna única hecha de un denso vector de dobles): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

3 la respuesta

Partir RDD en tuplas de longitud n

Soy relativamente nuevo en Apache Spark y Python y me preguntaba si algo como lo que voy a describir era factible. Tengo un RDD de la forma [m1m2m3m4m5m6.......metron$8Tengo un RDD de la forma [m9m10m11m12m13m14$n-2mn-1mn)]. Las tuplas internas ...

3 la respuesta

¿Se prefiere groupByKey alguna vez sobre reduceByKey?

Yo siempre usoreduceByKey cuando necesito agrupar datos en RDD, porque realiza una reducción del lado del mapa antes de mezclar datos, lo que a menudo significa que se mezclan menos datos y, por lo tanto, obtengo un mejor rendimiento. Incluso ...

1 la respuesta

Eliminar particiones vacías de Spark RDD

Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...

6 la respuesta

Inicializar un RDD para vaciar

Tengo un RDD llamado JavaPairRDD<String, List<String>> existingRDD;Ahora necesito inicializar estoexistingRDD vaciar para que cuando obtenga los rdd reales pueda hacer una unión con estoexistingRDD. ¿Cómo inicializoexistingRDD a un RDD vacío ...