Suchergebnisse für Anfrage "apache-spark"
Run 3000+ Random Forest Models nach Gruppe mit Spark MLlib Scala API
Ich versuche, mithilfe der Spark Scala-API zufällige Gesamtstrukturmodelle nach Gruppe (School_ID, mehr als 3 Tausend) für eine große Modell-Eingabe-CSV-Datei zu erstellen. Jede der Gruppen enthält ungefähr 3000-4000 Datensätze. Die mir zur ...
Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?
Ich habe ein lokal erstelltes.egg Paket, das von @ abhänboto==2.38.0. Ich habe setuptools verwendet, um die Build-Distribution zu erstellen. Alles funktioniert in meiner eigenen lokalen Umgebung, da es @ hoboto richtig vonPiP. ...
Verbinden mit S3-Daten von PySpark
Ich versuche, eine JSON-Datei von Amazon S3 zu lesen, um einen Spark-Kontext zu erstellen und zur Verarbeitung der Daten zu verwenden. Spark befindet sich im Grunde genommen in einem Docker-Container. Das Ablegen von Dateien im Docker-Pfad ist ...
Wie kann man in Spark mehrere Tabellen gleichzeitig lesen und schreiben?
In meiner Spark-Anwendung versuche ich, mehrere Tabellen aus RDBMS zu lesen, einige Daten zu verarbeiten und dann wie folgt mehrere Tabellen in ein anderes RDBMS zu schreiben (in Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> ...
Wie kann die Leistung für langsame Spark-Jobs mithilfe von DataFrame- und JDBC-Verbindungen verbessert werden?
Ich versuche, über JDBC im Standalone-Modus auf einem einzelnen Knoten (lokal [*]) auf eine mittelgroße Teradata-Tabelle (~ 100 Millionen Zeilen) zuzugreifen. Ich verwende Spark 1.4.1. und ist auf einem sehr leistungsstarken Computer (2 CPUs, ...
Spark: Unterschied zwischen Shuffle Write, Shuffle Spill (Speicher), Shuffle Spill (Disk)?
Ich habe den folgenden Spark-Job, der versucht, alles im Speicher zu behalten: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...
Drop spark dataframe from cache
Ich verwende Spark 1.3.0 mit Python API. Beim Transformieren großer Datenrahmen werden viele DFs zwischengespeichert, um die Ausführung zu beschleunige df1.cache() df2.cache()Die einmalige Verwendung eines bestimmten Datenrahmens ist beendet und ...
Wie gehe ich mit Spark-ml mit kategorialen Features um?
Wie gehe ich mit kategorialen Daten mit @ u spark-ml und nich spark-mllib ? Obwohl die Dokumentation nicht sehr klar ist, scheinen Klassifikatoren, z.RandomForestClassifier, LogisticRegression, haben einefeaturesCol Argument, das den Namen der ...
wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände
Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Wie wird der Naive Bayes-Klassifikator für die Textklassifizierung mit IDF verwendet?
Ich möchte Textdokumente mit tf-idf in Merkmalsvektoren konvertieren und dann einen naiven Bayes-Algorithmus trainieren, um sie zu klassifizieren. Ich kann meine Textdateien leicht ohne die Beschriftungen laden und sie mit HashingTF () in einen ...