Suchergebnisse für Anfrage "apache-spark-mllib"
Spark Matrix Multiplikation mit Python
Ich versuche, die Matrixmultiplikation mit Apache Spark und Python durchzuführen. Hier sind meine Daten from pyspark.mllib.linalg.distributed import RowMatrixMeine RDD von Vektoren rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...
Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark
Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...
Understanding Spark RandomForest featureImportances results
Ich benutzeRandomForest.featureImportances aber ich verstehe das Ausgabeergebnis nicht. Ich habe 12 Funktionen und dies ist die Ausgabe, die ich erhalte. Ich verstehe, dass dies möglicherweise keine Apache-Spark-spezifische Frage ist, aber ich ...
Vorwärts fehlende Werte in Spark / Python füllen
Ich versuche, fehlende Werte in meinem Spark-Datenframe mit dem vorherigen Nicht-Null-Wert (falls vorhanden) zu füllen. Ich habe so etwas in Python / Pandas gemacht, aber meine Daten sind zu groß für Pandas (auf einem kleinen Cluster) und ich ...
Nicht ganzzahlige IDs in Spark MLlib ALS
Ich würde gerne @ verwend val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha) Die Benutzerdaten, die ich erhalte, werden ...
Darstellung der Vektorspalte in Spark SQL verstehen
Bevor ich mit VectorAssembler () einige kategoriale OneHotEncoded-Features konsolidiert habe ... sah mein Datenrahmen folgendermaßen aus: | Numerical| HotEncoded1| HotEncoded2 | 14460.0| (44,[5],[1.0])| (3,[0],[1.0])| | 14460.0| (44,[9],[1.0])| ...
Spark CrossValidatorModel Zugriff auf andere Modelle als das bestModel?
Ich verwende Spark 1.6.1: Zur Zeit benutze ich einen CrossValidator, um meine ML-Pipeline mit verschiedenen Parametern zu trainieren. Nach dem Trainingsprozess kann ich die Eigenschaft bestModel des CrossValidatorModel verwenden, um das Modell ...
StackOverflow-Fehler beim Anwenden von pyspark ALS "recommendProductsForUsers" (obwohl ein Cluster von> 300 GB RAM verfügbar ist)
Suchen Sie nach Fachwissen, um mich bei den folgenden Problemen anzuleiten. Hintergrund Ich versuche, mit einem einfachen PySpark-Skript loszulegen, das von @ inspiriert isdieses ...
SparkR von Rstudio - gibt in invokeJava einen Fehler aus (isStatic = TRUE, className, methodName,…):
Ich verwende RStudio. Nach dem Erstellen einer Sitzung, wenn ich versuche, einen Datenrahmen mit R-Daten zu erstellen, tritt ein Fehler auf. Sys.setenv(SPARK_HOME = "E:/spark-2.0.0-bin-hadoop2.7/spark-2.0.0-bin-hadoop2.7") ...
Was ist der Unterschied zwischen Spark ML- und MLLIB-Paketen
Ich habe bemerkt, es gibt zweiLinearRegressionModel Klassen in SparkML, eine in ML und eine andere inMLLib package. Diese beiden sind ganz unterschiedlich implementiert - z. der vonMLLib implementiertSerializable, der andere nicht. Wie ame ...