Resultados de la búsqueda a petición "apache-spark-mllib"
Spark 1.5.1, MLLib Probabilidad de bosque aleatorio
Estoy usando Spark 1.5.1 con MLLib. Construí un modelo de bosque aleatorio usando MLLib, ahora uso el modelo para hacer predicciones. Puedo encontrar la categoría de predicción (0.0 o 1.0) usando la función .predict. Sin embargo, no puedo ...
Multiplicación matricial en Apache Spark [cerrado]
Estoy tratando de realizar una multiplicación de matrices usando Apache Spark y Java. Tengo 2 preguntas principales: ¿Cómo crear RDD que pueda representar una matriz en Apache Spark?¿Cómo multiplicar dos de estos RDD?
Spark Word2vec matemáticas vectoriales
Estaba mirando elejemplo [http://spark.apache.org/docs/latest/mllib-feature-extraction.html#example]del sitio de Spark para Word2Vec: val input = sc.textFile("text8").map(line => line.split(" ").toSeq) val word2vec = new Word2Vec() val model = ...
Spark: umbral y precisión del modelo de regresión
Tengo el modo de regresión logística, donde configuré explícitamente el umbral en 0.5. model.setThreshold(0.5)Entreno al modelo y luego quiero obtener estadísticas básicas: precisión, recuperación, etc. Esto es lo que hago cuando evalúo el ...
Personalizar la distancia del formulario K-means en Apache Spark Python
Ahora estoy usando K-means para agrupar y seguireste tutorial [http://spark.apache.org/docs/latest/mllib-clustering.html]yAPI [https://spark.apache.org/docs/1.0.0/api/python/pyspark.mllib.clustering-module.html] . Pero quiero usar una fórmula ...
El trabajo Spark Mlib FPGrowth falla con un error de memoria
Tengo un caso de uso bastante simple, pero un conjunto de resultados potencialmente muy grande. Mi código hace lo siguiente (en pyspark shell): from pyspark.mllib.fpm import FPGrowth data ...
SPARK, ML, Tuning, CrossValidator: accede a las métricas
Para construir un clasificador multiclase NaiveBayes, estoy usando un CrossValidator para seleccionar los mejores parámetros en mi tubería: val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGrid) ...
¿Cómo mejorar el resultado de mi recomendación? Estoy usando spark ALS implícito
Primero, tengo un historial de uso de la aplicación del usuario. Por ejemplo: usuario1, aplicación1, 3 (tiempos de lanzamiento) usuario2, aplicación2, 2 (tiempos de lanzamiento) usuario3, aplicación1, 1 (tiempos de lanzamiento) Tengo ...
Convertir una columna de vector en un marco de datos nuevamente en una columna de matriz
Tengo un marco de datos con dos columnas, una de las cuales (llamada dist) es un vector denso. ¿Cómo puedo convertirlo de nuevo en una columna de enteros? +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| |3.0|[6.0]| |4.0|[8.0]| ...
Hacer que las características de los datos de prueba sean iguales a los datos del tren después de la selección de características en chispa
Estoy trabajando en Scala. Tengo una gran pregunta, ChiSqSelector parece reducir la dimensión con éxito, pero no puedo identificar qué características se redujeron y qué quedaron. ¿Cómo puedo saber qué funciones se redujeron? [WrappedArray(a, b, ...