Resultados de la búsqueda a petición "apache-spark"

He creado un RDD con cada miembro como un par de valores clave con la clave como unDenseVector y valorar ser unint. p.ej. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Ahora quiero agrupar por la clavek1: DenseVector([3,4]). Espero que el ...

k-means

4 la respuesta

Spark MLLib K significa desde el marco de datos y vuelve

Mi objetivo es aplicar un algoritmo de agrupación de kmeans a un conjunto de datos muy grande utilizando Spark (1.3.1) MLLib. He llamado los datos de un HDFS usando un hiveContext de Spark, y eventualmente me gustaría volver a ponerlos de esa ...

python dataframe export-to-csv apache-spark-sql

5 la respuesta

¿Cómo exportar un marco de datos de tabla en PySpark a csv?

Estoy usando Spark 1.3.1 (PySpark) y he generado una tabla usando una consulta SQL. Ahora tengo un objeto que es unDataFrame. Quiero exportar estoDataFrame objeto (lo he llamado "tabla") a un archivo csv para poder manipularlo y trazar las ...

apache-spark-sql

4 la respuesta

¿Cómo puedo encontrar el tamaño de un RDD?

yo tengoRDD[Row], que debe persistir en un repositorio de terceros. Pero este repositorio de terceros acepta un máximo de 5 MB en una sola llamada. Por lo tanto, quiero crear una partición basada en el tamaño de los datos presentes en RDD y no ...

spark-dataframe apache-spark-sql

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...

apache-spark-sql scala

1 la respuesta

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

¿Existe una forma más elegante de filtrado basada en valores en un conjunto de cadenas? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

median rdd pyspark python

4 la respuesta

Cómo encontrar medianas y cuantiles usando Spark

¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...

rdd join

1 la respuesta

¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?

Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...

rdd python pyspark

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

python pyspark

1 la respuesta

Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey

mi archivo "asdasd.csv" tiene la siguiente ...

Página 110 de 165

108 109110111 112

Resultados de la búsqueda a petición "apache-spark"

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

Spark MLLib K significa desde el marco de datos y vuelve

¿Cómo exportar un marco de datos de tabla en PySpark a csv?

Etiquetas Populares

¿Cómo puedo encontrar el tamaño de un RDD?

¿Qué es eficiente, Dataframe o RDD o hiveql?

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

Cómo encontrar medianas y cuantiles usando Spark

¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?

Una lista como clave para reduceByKey de PySpark

Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "apache-spark"

Etiquetas Populares