Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Wie man Byte [] [] mit Kryo-Serialisierung für Funken registriert

Ich versuche, die Kryo-Serialisierung für Funken vollständig zu nutzen. Rahme .set("spark.kryo.registrationRequired", "true")Dies teilt mir mit, welche Klassen registriert werden müssen. Ich habe ungefähr 40 Klassen angemeldet, einige meiner ...

2 die antwort

Spark Matrix Multiplikation mit Python

Ich versuche, die Matrixmultiplikation mit Apache Spark und Python durchzuführen. Hier sind meine Daten from pyspark.mllib.linalg.distributed import RowMatrixMeine RDD von Vektoren rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...

2 die antwort

Wie wird der Apache-Funke dazu gebracht, Punkte in einer Abfrage zu ignorieren?

Gab die folgende JSON-Datei: [{"dog*woof":"bad dog 1","dog.woof":"bad dog 32"}]Warum schlägt dieser Java-Code fehl: DataFrame df = sqlContext.read().json("dogfile.json"); df.groupBy("dog.woof").count().show();aber dies nicht: DataFrame df = ...

TOP-Veröffentlichungen

8 die antwort

Vergleichen von Spalten in Pyspark

Ich arbeite an einem PySpark DataFrame mit n Spalten. Ich habe eine Menge von m Spalten (m <n) und meine Aufgabe ist es, die Spalte mit den Maximalwerten auszuwählen. Beispielsweise Input: PySpark DataFrame mit col_1 = [1,2,3], col_2 = [2,1,4], ...

4 die antwort

PySpark: Mehrere Bedingungen in der when-Klausel

Ich möchte die Zellenwerte einer Datenrahmenspalte (Alter) ändern, in der sie derzeit leer ist, und ich würde dies nur tun, wenn eine andere Spalte (Überlebt) den Wert 0 für die entsprechende Zeile hat, in der sie für Alter leer ist. Wenn es in ...

2 die antwort

Partitionierung nach mehreren Spalten in Spark SQL

Mit den Fensterfunktionen von Spark SQL muss ich meine Datenabfragen wie folgt nach mehreren Spalten partitionieren: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich habe derzeit keine Testumgebung (ich arbeite ...

8 die antwort

Zeilensummenspalte über eine Spaltenliste in Spark Dataframe hinzufügen

Ich habe einen Spark-Datenrahmen mit mehreren Spalten. Ich möchte dem Datenrahmen eine Spalte hinzufügen, die eine Summe einer bestimmten Anzahl von Spalten ist. Zum Beispiel sehen meine Daten so aus: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b ...

10 die antwort

Wie importiere ich mehrere CSV-Dateien auf einmal?

Consider Ich habe ein definiertes Schema zum Laden von 10 CSV-Dateien in einen Ordner. Gibt es eine Möglichkeit, Tabellen mit Spark SQL automatisch zu laden? Ich weiß, dass dies durchgeführt werden kann, indem für jede Datei ein ...

2 die antwort

Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark

Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...

8 die antwort

Aggregieren mehrerer Spalten mit benutzerdefinierter Funktion in Spark

Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Datenrahmen über mehrere Spalten anzugeben. Ich habe eine Tabelle wie diese vom Typ (Name, Artikel, Preis): john | tomato | 1.99 john | ...