Resultados de la búsqueda a petición "rdd"

Podemos conservar un RDD en la memoria y / o el disco cuando queremos usarlo más de una vez. Sin embargo, ¿tenemos que eliminarlo nosotros mismos más adelante, o Spark hace algún tipo de recolección de basura y eliminar el RDD cuando ya no ...

pyspark bigdata python apache-spark

5 la respuesta

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Tengo un muy grandepyspark.sql.dataframe.DataFramellamado df. Necesito alguna forma de enumerar registros, por lo tanto, poder acceder al registro con cierto índice. (o seleccione un grupo de registros con rango de índices) En pandas, podría ...

apache-spark python pyspark

2 la respuesta

Convierta un RDD a iterable: PySpark?

Tengo un RDD que estoy creando cargando un archivo de texto y preprocesándolo. No quiero recopilarlo y guardarlo en el disco o la memoria (datos completos), sino que quiero pasarlo a alguna otra función en Python que consuma los datos uno tras ...

python apache-spark pyspark apache-spark-sql

1 la respuesta

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

Estoy tratando de cargar un archivo SVM y convertirlo en unDataFrame entonces puedo usar el módulo ML (Pipeline ML) de Spark. Acabo de instalar un Spark 1.5.0 nuevo en un Ubuntu 14.04 (nospark-env.sh configurado). Mimy_script.py es: from ...

pyspark apache-spark

4 la respuesta

¿Cómo divido un RDD en dos o más RDD?

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto esScala Spark: ¿División dividida en varios RDD? [https://stackoverflow.com/questions/27231524/scala-spark-split-collection-into-several-rdd] que sigue ...

scala apache-spark spark-dataframe apache-spark-mllib

3 la respuesta

Convirtiendo RDD [org.apache.spark.sql.Row] a RDD [org.apache.spark.mllib.linalg.Vector]

Soy relativamente nuevo en Spark y Scala. Estoy comenzando con el siguiente marco de datos (columna única hecha de un denso vector de dobles): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

python apache-spark pyspark

3 la respuesta

Partir RDD en tuplas de longitud n

Soy relativamente nuevo en Apache Spark y Python y me preguntaba si algo como lo que voy a describir era factible. Tengo un RDD de la forma [m1m2m3m4m5m6.......metron$8Tengo un RDD de la forma [m9m10m11m12m13m14$n-2mn-1mn)]. Las tuplas internas ...

apache-spark

3 la respuesta

¿Se prefiere groupByKey alguna vez sobre reduceByKey?

Yo siempre usoreduceByKey cuando necesito agrupar datos en RDD, porque realiza una reducción del lado del mapa antes de mezclar datos, lo que a menudo significa que se mezclan menos datos y, por lo tanto, obtengo un mejor rendimiento. Incluso ...

apache-spark hadoop pyspark

1 la respuesta

Eliminar particiones vacías de Spark RDD

Estoy obteniendo datos de HDFS y almacenándolos en un Spark RDD. Spark crea el número de particiones en función del número de bloques HDFS. Esto conduce a una gran cantidad de particiones vacías que también se procesan durante la tubería. Para ...

apache-spark java

6 la respuesta

Inicializar un RDD para vaciar

Tengo un RDD llamado JavaPairRDD<String, List<String>> existingRDD;Ahora necesito inicializar estoexistingRDD vaciar para que cuando obtenga los rdd reales pueda hacer una unión con estoexistingRDD. ¿Cómo inicializoexistingRDD a un RDD vacío ...

Página 9 de 12

7 8910 11

Resultados de la búsqueda a petición "rdd"

¿Spark eliminaría el RDD si se da cuenta de que ya no se usará?

PySpark DataFrames: ¿forma de enumerar sin convertir a Pandas?

Convierta un RDD a iterable: PySpark?

Etiquetas Populares

El objeto 'PipelinedRDD' no tiene el atributo 'toDF' en PySpark

¿Cómo divido un RDD en dos o más RDD?

Convirtiendo RDD [org.apache.spark.sql.Row] a RDD [org.apache.spark.mllib.linalg.Vector]

Partir RDD en tuplas de longitud n

¿Se prefiere groupByKey alguna vez sobre reduceByKey?

Eliminar particiones vacías de Spark RDD

Inicializar un RDD para vaciar

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "rdd"

Etiquetas Populares