Suchergebnisse für Anfrage "apache-spark"
Differenz zwischen Filter und wo in Scala Spark SQL
Ich habe beide ausprobiert, aber es funktioniert gleich Beispie val items = List(1, 2, 3) using filter employees.filter($"emp_id".isin(items:_*)).show using where employees.where($"emp_id".isin(items:_*)).showErgebnis ist für beide ...
Lambda-Ausdrücke werden auf dieser Sprachstufe nicht unterstützt [duplizieren]
Diese Frage hat hier bereits eine Antwort: Java “Lambda-Ausdrücke werden auf dieser Sprachstufe nicht unterstützt” [/questions/22703412/java-lambda-expressions-not-supported-at-this-language-level] 23 answersIch habe eine Java-Klasse, die Spark ...
Warum weist Yarn on EMR nicht allen Knoten die Ausführung von Spark-Jobs zu?
Ich arbeite mit Apache Spark in Amazon Elastic Map Reduce (EMR). Derzeit arbeite ich mit emr-4.1.0, das Amazon Hadoop 2.6.0 und Spark 1.5.0 enthält. Wenn ich den Job starte, hat YARN alle Worker-Knoten korrekt dem Spark-Job zugewiesen (mit ...
Wie werden RDDs aufgelistet, die in der Spark-Shell definiert sind?
In beiden "Spark-Shell" - oder "Pyspark" -Shells habe ich viele RDDs erstellt, aber ich konnte in meiner aktuellen Sitzung von Spark Shell keine Möglichkeit finden, alle verfügbaren RDDs aufzuliste
Wie wird die erste Zeile jeder Gruppe ausgewählt?
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen so aus: +----+--------+----------+ |Hour|Category|TotalValue| ...
Connect to SQLite in Apache Spark
Ich möchte eine benutzerdefinierte Funktion für alle Tabellen in einer SQLite-Datenbank ausführen. Die Funktion ist mehr oder weniger gleich, hängt jedoch vom Schema der einzelnen Tabelle ab. Außerdem sind die Tabellen und ihre Schemata nur zur ...
R-Datenframes schreiben, die von SparkR ::: map @ zurückgegeben wurd
Ich verwende SparkR ::: map und meine Funktion gibt einen großen R-Datenrahmen für jede Eingabezeile mit derselben Form zurück. Ich möchte diese Datenrahmen als Parkettdateien schreiben, ohne sie zu "sammeln". Kann ich write.df über meine ...
Zusätzliche Gläser über spark-submit @ an Spark weiterleit
Ich verwende Spark mit MongoDB und verlasse mich daher auf diemongo-hadoop Fahrer. Ich habe die Dinge zum Laufen gebracht, dank der Eingabe meiner ursprünglichen ...
Stammtabellen im YARN-Cluster-Modus nicht gefunden
Ich habe eine Spark-Anwendung (Version 1.4.1) auf HDP 2.3. Es funktioniert einwandfrei, wenn es im YARN-Client-Modus ausgeführt wird. Wenn es jedoch im YARN-Cluster-Modus ausgeführt wird, kann keine meiner Hive-Tabellen von der Anwendung gefunden ...
Warum ist mein BroadcastHashJoin langsamer als ShuffledHashJoin in Spark
Ich führe einen Join mit einem @ ajavaHiveContext in Spark. Der große Tisch hat eine Größe von 1,76 GB und einen Rekord von 100 Millionen. Die zweite Tabelle hat eine Größe von 273 MB und einen Datensatz von 10 Millionen. Ich bekomme ...