Resultados de la búsqueda a petición "apache-spark-mllib"

1 la respuesta

Spark MLlib: creación de clasificadores para cada grupo de datos

He etiquetado los vectores (La LabelPoint-s) marcados por algún número de grupo. Para cada grupo necesito crearuna separacion Clasificador de regresión logística: import org.apache.log4j.{Level, Logger} ...

2 la respuesta

Vector escaso vs Vector denso

Como crearSparseVector y densas representaciones vectoriales Si elDenseVector es: denseV = np.array([0., 3., 0., 4.])¿Cuál será la representación del Vector disperso?

1 la respuesta

Spark mllib prediciendo un número extraño o NaN

Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...

1 la respuesta

Conversión de RDD a La LabelPoint

Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...

1 la respuesta

¿Cómo generar tuplas de (etiqueta original, etiqueta predicha) en Spark con MLlib?

Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objetivo es generar tuplas de (orinalLabelInData, predicttedLabel). Entonces esas tuplas se pueden usar para fines de evaluación del modelo. ¿Cuál es la mejor ...

8 la respuesta

Cómo extraer los mejores parámetros de un CrossValidatorModel

Quiero encontrar los parámetros deParamGridBuilder que hacen el mejor modelo en CrossValidator en Spark 1.4.x, EnEjemplo de tubería [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] en la ...

1 la respuesta

Formato de archivo del modelo Apache Spark MLlib

Los algoritmos Apache Spark MLlib (por ejemplo, árboles de decisión) guardan el modelo en una ubicación (por ejemplo,myModelPath) donde crea dos directorios, a saber.myModelPath/data ymyModelPath/metadata. Hay varios archivos en estas rutas y ...

2 la respuesta

Cómo convertir un mapa a RDD de Spark

Tengo un conjunto de datos que tiene la forma de algunos mapas anidados, y su tipo Scala es: Map[String, (LabelType,Map[Int, Double])]El primeroString La clave es un identificador único para cada muestra, y el valor es una tupla que contiene ...

1 la respuesta

Ejecute más de 3000 modelos de bosque aleatorio por grupo utilizando Spark MLlib Scala API

Estoy tratando de construir modelos de bosque aleatorios por grupo (School_ID, más de 3 mil) en un archivo csv de entrada de modelo grande usando Spark Scala API. Cada uno de los grupos contiene alrededor de 3000-4000 registros. Los recursos que ...

1 la respuesta

¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?

Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...