Resultados de la búsqueda a petición "apache-spark-mllib"

1 la respuesta

¿Cómo obtener detalles de palabras de TF Vector RDD en Spark ML Lib?

He creado la frecuencia de término usandoHashingTF en chispa Tengo el término frecuencias usandotf.transform por cada palabra Pero los resultados se muestran en este formato. [<hashIndexofHashBucketofWord1>,<hashIndexofHashBucketofWord2> ...

4 la respuesta

¿Cómo manejar características categóricas con spark-ml?

¿Cómo manejo datos categóricos con spark-ml y no spark-mllib ? Si bien la documentación no es muy clara, parece que los clasificadores, p.RandomForestClassifier, LogisticRegression, tener unfeaturesCol argumento, que especifica el nombre de la ...

3 la respuesta

¿Cómo guardar modelos de ML Pipeline a S3 o HDFS?

Estoy tratando de salvar miles de modelos producidos por ML Pipeline. Como se indica en la respuestaaquí [https://stackoverflow.com/questions/32121046/run-3000-random-forest-models-by-group-using-spark-mllib-scala-api] , los modelos se pueden ...

1 la respuesta

Spark MLlib LDA, ¿cómo inferir la distribución de temas de un nuevo documento invisible?

Estoy interesado en aplicar el modelado de temas LDA usando Spark MLlib. He comprobado el código y las explicaciones enaquí [http://spark.apache.org/docs/latest/mllib-clustering.html#latent-dirichlet-allocation-lda] pero no pude encontrar cómo ...

3 la respuesta

¿Cómo convierto un RDD con una columna SparseVector en un DataFrame con una columna como Vector?

Yo tengo unRDDcon una tupla de valores (String, SparseVector) y quiero crear un Marco de datosutilizando laRDD. Para obtener una (etiqueta: cadena, características: vector)Marco de datoscual es el esquema requerido por la mayoría de las ...

1 la respuesta

Spark data type adivinador UDAF

Quería tomar algo como esto https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java [https://github.com/fitzscott/AirQuality/blob/master/HiveDataTypeGuesser.java]y cree un HDAF Hive para crear una función agregada que ...

1 la respuesta

Codificar y ensamblar múltiples funciones en PySpark

Tengo una clase de Python que estoy usando para cargar y procesar algunos datos en Spark. Entre varias cosas que debo hacer, estoy generando una lista de variables ficticias derivadas de varias columnas en un marco de datos de Spark. Mi problema ...

3 la respuesta

Convirtiendo RDD [org.apache.spark.sql.Row] a RDD [org.apache.spark.mllib.linalg.Vector]

Soy relativamente nuevo en Spark y Scala. Estoy comenzando con el siguiente marco de datos (columna única hecha de un denso vector de dobles): scala> val scaledDataOnly_pruned = scaledDataOnly.select("features") scaledDataOnly_pruned: ...

3 la respuesta

Spark DataFrame entrega una cadena vacía en OneHotEncoder

Estoy importando un archivo CSV (usando spark-csv) en unDataFrame que tiene vacioString valores. Cuando se aplica elOneHotEncoder, la aplicación se bloquea con errorrequirement failed: Cannot have an empty string for name.. ¿Hay alguna manera de ...

1 la respuesta

Spark no utiliza todo el núcleo mientras ejecuta LinearRegressionwithSGD

Estoy ejecutando Spark en mi máquina local (16G, 8 núcleos de CPU). Estaba tratando de entrenar el modelo de regresión lineal en un conjunto de datos de tamaño 300 MB. Revisé las estadísticas de la CPU y también los programas que se ejecutan, ...