Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo agruparByKey un RDD, con DenseVector como clave, en Spark?

He creado un RDD con cada miembro como un par de valores clave con la clave como unDenseVector y valorar ser unint. p.ej. [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]Ahora quiero agrupar por la clavek1: DenseVector([3,4]). Espero que el ...

4 la respuesta

Spark MLLib K significa desde el marco de datos y vuelve

Mi objetivo es aplicar un algoritmo de agrupación de kmeans a un conjunto de datos muy grande utilizando Spark (1.3.1) MLLib. He llamado los datos de un HDFS usando un hiveContext de Spark, y eventualmente me gustaría volver a ponerlos de esa ...

5 la respuesta

¿Cómo exportar un marco de datos de tabla en PySpark a csv?

Estoy usando Spark 1.3.1 (PySpark) y he generado una tabla usando una consulta SQL. Ahora tengo un objeto que es unDataFrame. Quiero exportar estoDataFrame objeto (lo he llamado "tabla") a un archivo csv para poder manipularlo y trazar las ...

4 la respuesta

¿Cómo puedo encontrar el tamaño de un RDD?

yo tengoRDD[Row], que debe persistir en un repositorio de terceros. Pero este repositorio de terceros acepta un máximo de 5 MB en una sola llamada. Por lo tanto, quiero crear una partición basada en el tamaño de los datos presentes en RDD y no ...

3 la respuesta

¿Qué es eficiente, Dataframe o RDD o hiveql?

Soy novato en Apache Spark. Mi trabajo es leer dos archivos CSV, seleccionar algunas columnas específicas de él, fusionarlo, agregarlo y escribir el resultado en un solo archivo CSV. Por ejemplo, CSV1name,age,deparment_id ...

1 la respuesta

¿Cómo puedo filtrar filas en función de si el valor de una columna está en un conjunto de cadenas en un Spark DataFrame?

¿Existe una forma más elegante de filtrado basada en valores en un conjunto de cadenas? def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = { val containsAction = udf((action: String) => { actions.contains(action) ...

4 la respuesta

Cómo encontrar medianas y cuantiles usando Spark

¿Cómo puedo encontrar la mediana de unRDD de enteros que utilizan un método distribuido, IPython y Spark? losRDD tiene aproximadamente 700,000 elementos y, por lo tanto, es demasiado grande para recolectar y encontrar la mediana. Esta pregunta ...

1 la respuesta

¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?

Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

1 la respuesta

Pyspark - TypeError: el objeto 'flotante' no tiene subíndice al calcular la media usando reduceByKey

mi archivo "asdasd.csv" tiene la siguiente ...