Resultados de la búsqueda a petición "apache-spark-mllib"

2 la respuesta

¿Es Spark's KMeans incapaz de manejar bigdata?

KMeans tiene varios parámetros para suformación [http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html?highlight=kmeans#pyspark.mllib.clustering.KMeans.train] , con el modo de inicialización predeterminado en kmeans ||. El problema es ...

3 la respuesta

SparkR de Rstudio - da un error en invokeJava (isStatic = TRUE, className, methodName, ...):

Estoy usando RStudio. Después de crear la sesión, si trato de crear un marco de datos utilizando datos R, da error. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") Sys.setenv(HADOOP_HOME = "E:/winutils") ...

1 la respuesta

Spark RDD: ¿Cómo calcular las estadísticas de manera más eficiente?

Suponiendo la existencia de un RDD de tuplas similar al siguiente: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...¿Cuál es la forma más eficiente (e idealmente distribuida) de calcular las estadísticas correspondientes ...

2 la respuesta

Spark CrossValidatorModel accede a otros modelos que no sean bestModel?

Estoy usando Spark 1.6.1: Actualmente estoy usando un CrossValidator para entrenar mi ML Pipeline con varios parámetros. Después del proceso de capacitación, puedo usar la propiedad bestModel de CrossValidatorModel para obtener el modelo que ...

1 la respuesta

PCA en Spark MLlib y Spark ML

Spark ahora tiene dos bibliotecas de aprendizaje automático: Spark MLlib y Spark ML. Se superponen un poco en lo que se implementa, pero según tengo entendido (como una persona nueva en todo el ecosistema de Spark) Spark ML es el camino a seguir ...

2 la respuesta

¿Podemos actualizar el modelo existente en spark-ml / spark-mllib?

Estamos utilizando spark-ml para construir el modelo a partir de datos existentes. Nuevos datos llegan a diario. ¿Hay alguna manera de que solo podamos leer los nuevos datos y actualizar el modelo existente sin tener que leer todos los datos y ...

2 la respuesta

El valor de la configuración "spark.yarn.executor.memoryOverhead"?

El valor despark.yarn.executor.memoryOverhead en un trabajo de Spark con YARN debe asignarse a la aplicación o solo al valor máximo?

1 la respuesta

Spark ML VectorAssembler devuelve resultados extraños

Estoy experimentando un comportamiento muy extraño deVectorAssembler y me preguntaba si alguien más ha visto esto. Mi escenario es bastante sencillo. Analizo datos de unCSV archivo donde tengo algún estándarInt yDouble campos y también calculo ...

2 la respuesta

Modelo ALS: ¿cómo generar full_u * v ^ t * v?

Estoy tratando de descubrir cómo un modelo de ALS puede predecir valores para nuevos usuarios entre ellos que se actualizan mediante un proceso por lotes. En mi búsqueda, me encontré con estorespuesta ...

2 la respuesta

No se puede convertir el tipo <clase 'pyspark.ml.linalg.SparseVector'> en Vector

Dado mi objeto pyspark Row: >>> row Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})) >>> row.clicked 0 >>> row.features SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}) >>> type(row.features) <class ...