Suchergebnisse für Anfrage "apache-spark-mllib"

2 die antwort

Spark Matrix Multiplikation mit Python

Ich versuche, die Matrixmultiplikation mit Apache Spark und Python durchzuführen. Hier sind meine Daten from pyspark.mllib.linalg.distributed import RowMatrixMeine RDD von Vektoren rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

2 die antwort

Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark

Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...

4 die antwort

Understanding Spark RandomForest featureImportances results

Ich benutzeRandomForest.featureImportances aber ich verstehe das Ausgabeergebnis nicht. Ich habe 12 Funktionen und dies ist die Ausgabe, die ich erhalte. Ich verstehe, dass dies möglicherweise keine Apache-Spark-spezifische Frage ist, aber ich ...

TOP-Veröffentlichungen

2 die antwort

Vorwärts fehlende Werte in Spark / Python füllen

Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...

2 die antwort

Nicht ganzzahlige IDs in Spark MLlib ALS

Ich würde gerne @ verwend val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha) Die Benutzerdaten, die ich erhalte, werden ...

2 die antwort

Darstellung der Vektorspalte in Spark SQL verstehen

Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...

4 die antwort

Spark CrossValidatorModel Zugriff auf andere Modelle als das bestModel?

Ich verwende Spark 1.6.1: Zur Zeit benutze ich einen CrossValidator, um meine ML-Pipeline mit verschiedenen Parametern zu trainieren. Nach dem Trainingsprozess kann ich die Eigenschaft bestModel des CrossValidatorModel verwenden, um das Modell ...

2 die antwort

StackOverflow-Fehler beim Anwenden von pyspark ALS "recommendProductsForUsers" (obwohl ein Cluster von> 300 GB RAM verfügbar ist)

Suchen Sie nach Fachwissen, um mich bei den folgenden Problemen anzuleiten. Hintergrund Ich versuche, mit einem einfachen PySpark-Skript loszulegen, das von @ inspiriert isdieses ...

6 die antwort

SparkR von Rstudio - gibt in invokeJava einen Fehler aus (isStatic = TRUE, className, methodName,…):

Ich verwende RStudio. Nach dem Erstellen einer Sitzung, wenn ich versuche, einen Datenrahmen mit R-Daten zu erstellen, tritt ein Fehler auf. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") ...

4 die antwort

Was ist der Unterschied zwischen Spark ML- und MLLIB-Paketen

Ich habe bemerkt, es gibt zweiLinearRegressionModel Klassen in SparkML, eine in ML und eine andere inMLLib package. Diese beiden sind ganz unterschiedlich implementiert - z. der vonMLLib implementiertSerializable, der andere nicht. Wie ame ...