Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Differenz zwischen Filter und wo in Scala Spark SQL

Ich habe beide ausprobiert, aber es funktioniert gleich Beispie val items = List(1, 2, 3) using filter employees.filter($"emp_id".isin(items:_*)).show using where employees.where($"emp_id".isin(items:_*)).showErgebnis ist für beide ...

2 die antwort

Lambda-Ausdrücke werden auf dieser Sprachstufe nicht unterstützt [duplizieren]

Diese Frage hat hier bereits eine Antwort: Java “Lambda-Ausdrücke werden auf dieser Sprachstufe nicht unterstützt” [/questions/22703412/java-lambda-expressions-not-supported-at-this-language-level] 23 answersIch habe eine Java-Klasse, die Spark ...

2 die antwort

Warum weist Yarn on EMR nicht allen Knoten die Ausführung von Spark-Jobs zu?

Ich arbeite mit Apache Spark in Amazon Elastic Map Reduce (EMR). Derzeit arbeite ich mit emr-4.1.0, das Amazon Hadoop 2.6.0 und Spark 1.5.0 enthält. Wenn ich den Job starte, hat YARN alle Worker-Knoten korrekt dem Spark-Job zugewiesen (mit ...

TOP-Veröffentlichungen

2 die antwort

Wie werden RDDs aufgelistet, die in der Spark-Shell definiert sind?

In beiden "Spark-Shell" - oder "Pyspark" -Shells habe ich viele RDDs erstellt, aber ich konnte in meiner aktuellen Sitzung von Spark Shell keine Möglichkeit finden, alle verfügbaren RDDs aufzuliste

16 die antwort

Wie wird die erste Zeile jeder Gruppe ausgewählt?

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen so aus: +----+--------+----------+ |Hour|Category|TotalValue| ...

2 die antwort

Connect to SQLite in Apache Spark

Ich möchte eine benutzerdefinierte Funktion für alle Tabellen in einer SQLite-Datenbank ausführen. Die Funktion ist mehr oder weniger gleich, hängt jedoch vom Schema der einzelnen Tabelle ab. Außerdem sind die Tabellen und ihre Schemata nur zur ...

2 die antwort

R-Datenframes schreiben, die von SparkR ::: map @ zurückgegeben wurd

Ich verwende SparkR ::: map und meine Funktion gibt einen großen R-Datenrahmen für jede Eingabezeile mit derselben Form zurück. Ich möchte diese Datenrahmen als Parkettdateien schreiben, ohne sie zu "sammeln". Kann ich write.df über meine ...

4 die antwort

Zusätzliche Gläser über spark-submit @ an Spark weiterleit

Ich verwende Spark mit MongoDB und verlasse mich daher auf diemongo-hadoop Fahrer. Ich habe die Dinge zum Laufen gebracht, dank der Eingabe meiner ursprünglichen ...

4 die antwort

Stammtabellen im YARN-Cluster-Modus nicht gefunden

Ich habe eine Spark-Anwendung (Version 1.4.1) auf HDP 2.3. Es funktioniert einwandfrei, wenn es im YARN-Client-Modus ausgeführt wird. Wenn es jedoch im YARN-Cluster-Modus ausgeführt wird, kann keine meiner Hive-Tabellen von der Anwendung gefunden ...

2 die antwort

Warum ist mein BroadcastHashJoin langsamer als ShuffledHashJoin in Spark

Ich führe einen Join mit einem @ ajavaHiveContext in Spark. Der große Tisch hat eine Größe von 1,76 GB und einen Rekord von 100 Millionen. Die zweite Tabelle hat eine Größe von 273 MB und einen Datensatz von 10 Millionen. Ich bekomme ...