Resultados de la búsqueda a petición "apache-spark-mllib"
Spark MLlib: creación de clasificadores para cada grupo de datos
He etiquetado los vectores (La LabelPoint-s) marcados por algún número de grupo. Para cada grupo necesito crearuna separacion Clasificador de regresión logística: import org.apache.log4j.{Level, Logger} ...
Vector escaso vs Vector denso
Como crearSparseVector y densas representaciones vectoriales Si elDenseVector es: denseV = np.array([0., 3., 0., 4.])¿Cuál será la representación del Vector disperso?
Spark mllib prediciendo un número extraño o NaN
Soy nuevo en Apache Spark e intento usar la biblioteca de aprendizaje automático para predecir algunos datos. Mi conjunto de datos en este momento es solo de unos 350 puntos. Aquí hay 7 de esos puntos: "365","4",41401.387,5330569 ...
Conversión de RDD a La LabelPoint
Si tengo un RDD con aproximadamente 500 columnas y 200 millones de filas, yRDD.columns.indexOf("target", 0) muestraInt = 77 que me dice que mi variable dependiente objetivo está en la columna número 77. Pero no tengo suficiente conocimiento sobre ...
¿Cómo generar tuplas de (etiqueta original, etiqueta predicha) en Spark con MLlib?
Estoy tratando de hacer predicciones con el modelo que recibí de MLlib en Spark. El objetivo es generar tuplas de (orinalLabelInData, predicttedLabel). Entonces esas tuplas se pueden usar para fines de evaluación del modelo. ¿Cuál es la mejor ...
Cómo extraer los mejores parámetros de un CrossValidatorModel
Quiero encontrar los parámetros deParamGridBuilder que hacen el mejor modelo en CrossValidator en Spark 1.4.x, EnEjemplo de tubería [http://spark.apache.org/docs/latest/ml-guide.html#example-model-selection-via-cross-validation] en la ...
Formato de archivo del modelo Apache Spark MLlib
Los algoritmos Apache Spark MLlib (por ejemplo, árboles de decisión) guardan el modelo en una ubicación (por ejemplo,myModelPath) donde crea dos directorios, a saber.myModelPath/data ymyModelPath/metadata. Hay varios archivos en estas rutas y ...
Cómo convertir un mapa a RDD de Spark
Tengo un conjunto de datos que tiene la forma de algunos mapas anidados, y su tipo Scala es: Map[String, (LabelType,Map[Int, Double])]El primeroString La clave es un identificador único para cada muestra, y el valor es una tupla que contiene ...
Ejecute más de 3000 modelos de bosque aleatorio por grupo utilizando Spark MLlib Scala API
Estoy tratando de construir modelos de bosque aleatorios por grupo (School_ID, más de 3 mil) en un archivo csv de entrada de modelo grande usando Spark Scala API. Cada uno de los grupos contiene alrededor de 3000-4000 registros. Los recursos que ...
¿Cómo utilizar el clasificador de chispas Naive Bayes para la clasificación de texto con IDF?
Quiero convertir documentos de texto en vectores de características usando tf-idf, y luego entrenar un algoritmo ingenuo de bayes para clasificarlos. Puedo cargar fácilmente mis archivos de texto sin las etiquetas y usar HashingTF () para ...