Resultados de la búsqueda a petición "apache-spark-mllib"
¿Cómo servir un modelo Spark MLlib?
Estoy evaluando herramientas para aplicaciones basadas en ML de producción y una de nuestras opciones es Spark MLlib, pero tengo algunas preguntas sobre cómo servir un modelo una vez que está capacitado. Por ejemplo, en Azure ML, una vez ...
Modelo de ALS: las calificaciones pronosticadas de full_u * v ^ t * v son muy altas
Estoy prediciendo clasificaciones entre procesos que entrenan por lotes el modelo. Estoy usando el enfoque descrito aquí:Modelo ALS: ¿cómo generar full_u * v ^ t * ...
Contenido dividido de la columna String en PySpark Dataframe
Tengo un marco de datos pyspark que tiene una columna que contiene cadenas. Quiero dividir esta columna en palabras. Código: >>> sentenceData = sqlContext.read.load('file://sample1.csv', format='com.databricks.spark.csv', header='true', ...
Escalando cada columna de un marco de datos
Estoy tratando de escalar cada columna de un marco de datos. Primero convierto cada columna en un vector y luego uso el ml MinMax Scaler. ¿Existe una manera mejor / más elegante de aplicar la misma función a cada columna que no sea simplemente ...
Forma óptima de crear una tubería ml en Apache Spark para el conjunto de datos con un alto número de columnas
Estoy trabajando con Spark 2.1.1 en un conjunto de datos con ~ 2000 características y estoy tratando de crear una Tubería ML básica, que consta de algunos Transformadores y un Clasificador. Supongamos, por simplicidad, que el Pipeline con el que ...
¿Cómo hacer predicciones con Sklearn Model dentro de Spark?
He entrenado un modelo en python usando sklearn. ¿Cómo podemos usar el mismo modelo para cargar en Spark y generar predicciones en una chispa RDD?
Une dos tuberías Spark mllib juntas
Tengo dos separadosDataFrames que tienen varias etapas de procesamiento diferentes que usomllib transformadores en una tubería para manejar. Ahora quiero unir estas dos tuberías juntas, manteniendo las características (columnas) de ...
Spark ML Pipeline con RandomForest lleva demasiado tiempo en un conjunto de datos de 20 MB
Estoy usando Spark ML para ejecutar algunos experimentos de ML y en un pequeño conjunto de datos de 20 MB (Conjunto de datos de póker [http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-testing.data] ) y un bosque aleatorio ...
¿Cómo manejar las características categóricas de Decision Tree, Random Forest en spark ml?
Estoy tratando de construir un árbol de decisión y un clasificador de bosque aleatorio en los datos de marketing del banco UCI -> https://archive.ics.uci.edu/ml/datasets/bank+marketing [https://archive.ics.uci.edu/ml/datasets/bank+marketing]. Hay ...
¿Cómo entender el tipo de formato de libsvm de Spark MLlib?
Soy nuevo para aprender Spark MLlib. Cuando estaba leyendo sobre el ejemplo de regresión logística binomial, no entiendo el tipo de formato de "libsvm". ( Regresión logística ...