Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Run 3000+ Random Forest Models nach Gruppe mit Spark MLlib Scala API

Ich versuche, mithilfe der Spark Scala-API zufällige Gesamtstrukturmodelle nach Gruppe (School_ID, mehr als 3 Tausend) für eine große Modell-Eingabe-CSV-Datei zu erstellen. Jede der Gruppen enthält ungefähr 3000-4000 Datensätze. Die mir zur ...

2 die antwort

Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?

Ich habe ein lokal erstelltes.egg Paket, das von @ abhänboto==2.38.0. Ich habe setuptools verwendet, um die Build-Distribution zu erstellen. Alles funktioniert in meiner eigenen lokalen Umgebung, da es @ hoboto richtig vonPiP. ...

4 die antwort

Verbinden mit S3-Daten von PySpark

Ich versuche, eine JSON-Datei von Amazon S3 zu lesen, um einen Spark-Kontext zu erstellen und zur Verarbeitung der Daten zu verwenden. Spark befindet sich im Grunde genommen in einem Docker-Container. Das Ablegen von Dateien im Docker-Pfad ist ...

TOP-Veröffentlichungen

2 die antwort

Wie kann man in Spark mehrere Tabellen gleichzeitig lesen und schreiben?

In meiner Spark-Anwendung versuche ich, mehrere Tabellen aus RDBMS zu lesen, einige Daten zu verarbeiten und dann wie folgt mehrere Tabellen in ein anderes RDBMS zu schreiben (in Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> ...

4 die antwort

Wie kann die Leistung für langsame Spark-Jobs mithilfe von DataFrame- und JDBC-Verbindungen verbessert werden?

Ich versuche, über JDBC im Standalone-Modus auf einem einzelnen Knoten (lokal [*]) auf eine mittelgroße Teradata-Tabelle (~ 100 Millionen Zeilen) zuzugreifen. Ich verwende Spark 1.4.1. und ist auf einem sehr leistungsstarken Computer (2 CPUs, ...

8 die antwort

Spark: Unterschied zwischen Shuffle Write, Shuffle Spill (Speicher), Shuffle Spill (Disk)?

Ich habe den folgenden Spark-Job, der versucht, alles im Speicher zu behalten: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

4 die antwort

Drop spark dataframe from cache

Ich verwende Spark 1.3.0 mit Python API. Beim Transformieren großer Datenrahmen werden viele DFs zwischengespeichert, um die Ausführung zu beschleunige df1.cache() df2.cache()Die einmalige Verwendung eines bestimmten Datenrahmens ist beendet und ...

8 die antwort

Wie gehe ich mit Spark-ml mit kategorialen Features um?

Wie gehe ich mit kategorialen Daten mit @ u spark-ml und nich spark-mllib ? Obwohl die Dokumentation nicht sehr klar ist, scheinen Klassifikatoren, z.RandomForestClassifier, LogisticRegression, haben einefeaturesCol Argument, das den Namen der ...

8 die antwort

wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

2 die antwort

Wie wird der Naive Bayes-Klassifikator für die Textklassifizierung mit IDF verwendet?

Ich möchte Textdokumente mit tf-idf in Merkmalsvektoren konvertieren und dann einen naiven Bayes-Algorithmus trainieren, um sie zu klassifizieren. Ich kann meine Textdateien leicht ohne die Beschriftungen laden und sie mit HashingTF () in einen ...