Suchergebnisse für Anfrage "apache-spark"
Wie man Byte [] [] mit Kryo-Serialisierung für Funken registriert
Ich versuche, die Kryo-Serialisierung für Funken vollständig zu nutzen. Rahme .set("spark.kryo.registrationRequired", "true")Dies teilt mir mit, welche Klassen registriert werden müssen. Ich habe ungefähr 40 Klassen angemeldet, einige meiner ...
Spark Matrix Multiplikation mit Python
Ich versuche, die Matrixmultiplikation mit Apache Spark und Python durchzuführen. Hier sind meine Daten from pyspark.mllib.linalg.distributed import RowMatrixMeine RDD von Vektoren rows_1 = sc.parallelize([[1, 2], [4, 5], [7, 8]]) rows_2 = ...
Wie wird der Apache-Funke dazu gebracht, Punkte in einer Abfrage zu ignorieren?
Gab die folgende JSON-Datei: [{"dog*woof":"bad dog 1","dog.woof":"bad dog 32"}]Warum schlägt dieser Java-Code fehl: DataFrame df = sqlContext.read().json("dogfile.json"); df.groupBy("dog.woof").count().show();aber dies nicht: DataFrame df = ...
Vergleichen von Spalten in Pyspark
Ich arbeite an einem PySpark DataFrame mit n Spalten. Ich habe eine Menge von m Spalten (m <n) und meine Aufgabe ist es, die Spalte mit den Maximalwerten auszuwählen. Beispielsweise Input: PySpark DataFrame mit col_1 = [1,2,3], col_2 = [2,1,4], ...
PySpark: Mehrere Bedingungen in der when-Klausel
Ich möchte die Zellenwerte einer Datenrahmenspalte (Alter) ändern, in der sie derzeit leer ist, und ich würde dies nur tun, wenn eine andere Spalte (Überlebt) den Wert 0 für die entsprechende Zeile hat, in der sie für Alter leer ist. Wenn es in ...
Partitionierung nach mehreren Spalten in Spark SQL
Mit den Fensterfunktionen von Spark SQL muss ich meine Datenabfragen wie folgt nach mehreren Spalten partitionieren: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich habe derzeit keine Testumgebung (ich arbeite ...
Zeilensummenspalte über eine Spaltenliste in Spark Dataframe hinzufügen
Ich habe einen Spark-Datenrahmen mit mehreren Spalten. Ich möchte dem Datenrahmen eine Spalte hinzufügen, die eine Summe einer bestimmten Anzahl von Spalten ist. Zum Beispiel sehen meine Daten so aus: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b ...
Wie importiere ich mehrere CSV-Dateien auf einmal?
Consider Ich habe ein definiertes Schema zum Laden von 10 CSV-Dateien in einen Ordner. Gibt es eine Möglichkeit, Tabellen mit Spark SQL automatisch zu laden? Ich weiß, dass dies durchgeführt werden kann, indem für jede Datei ein ...
Wie erhalte ich mit CrossValidator Präzision / Rückruf für das Training des NaiveBayes-Modells mit Spark
Supossed Ich habe eine Pipeline wie diese: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features") val idf = new ...
Aggregieren mehrerer Spalten mit benutzerdefinierter Funktion in Spark
Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Datenrahmen über mehrere Spalten anzugeben. Ich habe eine Tabelle wie diese vom Typ (Name, Artikel, Preis): john | tomato | 1.99 john | ...