Resultados de la búsqueda a petición "apache-spark-mllib"

1 la respuesta

Similitud de cadenas con condición OR en MinHash Spark ML

Tengo dos conjuntos de datos, el primero es un conjunto de datos de referencia grande y el segundo conjunto de datos encontrará la mejor coincidencia del primer conjunto de datos a través del algoritmo MinHash. val dataset1 = ...

5 la respuesta

Cómo asignar números contiguos únicos a elementos en un Spark RDD

Tengo un conjunto de datos de(user, product, review), y quiero alimentarlo al algoritmo ALS de mllib. El algoritmo necesita que los usuarios y los productos sean números, mientras que los míos son los nombres de usuario de String y los SKU de ...

1 la respuesta

Apache Spark - MlLib - Filtrado colaborativo

Estoy tratando de usar MlLib para mi filtrado coloborativo. Me encuentro con el siguiente error en mi programa Scala cuando lo ejecuto en Apache Spark 1.0.0. 14/07/15 16:16:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your ...

3 la respuesta

¿Cómo ejecuto el árbol de decisión de Spark con un conjunto de características categóricas usando Scala?

Tengo un conjunto de características con una información categórica correspondiente: Map [Int, Int]. Sin embargo, por mi vida, no puedo entender cómo se supone que debo hacer que funcione la clase DecisionTree. No aceptará nada, sino un La ...

1 la respuesta

Cómo codificar valores de cadena en valores numéricos en Spark DataFrame

Tengo un DataFrame con dos columnas: df = Col1 Col2 aaa bbb ccc aaaQuiero codificar valores de cadena en valores numéricos. Logré hacerlo de esta manera: import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer} val indexer1 = new ...

1 la respuesta

Imprimir ClusterID y sus elementos usando Spark KMeans algo.

Tengo este programa que imprime el algoritmo MSSE of Kmeans en apache-spark. Hay 20 grupos generados. Estoy tratando de imprimir el clusterID y los elementos que se asignaron al respectivo clusterID. ¿Cómo hago un bucle sobre el clusterID para ...

1 la respuesta

apache spark MLLib: ¿cómo construir puntos etiquetados para características de cadena?

Estoy tratando de construir un clasificador NaiveBayes con MLLib de Spark que toma como entrada un conjunto de documentos. Me gustaría poner algunas cosas como características (es decir, autores, etiquetas explícitas, palabras clave implícitas, ...

2 la respuesta

Error de dependencia de Mllib

Estoy tratando de construir una aplicación autónoma scala muy simple usando Mllib, pero recibo el siguiente error cuando intento construir el programa: Object Mllib is not a member of package org.apache.sparkEntonces, me di cuenta de que tengo ...

1 la respuesta

Cómo convertir org.apache.spark.rdd.RDD [Array [Double]] a Array [Double] que requiere Spark MLlib

Estoy tratando de implementarKMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20)en el que me sale el ...

2 la respuesta

Adición de dos RDD [mllib.linalg.Vector]

Necesito agregar dos matrices que se almacenan en dos archivos. El contenido delatest1.txt ylatest2.txt tiene el siguiente str: 1 2 3 4 5 6 7 8 9Estoy leyendo esos archivos de la siguiente manera: scala> val rows = ...