Suchergebnisse für Anfrage "mapreduce"
Oozie: Map-Reduce von Oozie <java> aus starten?
Ich versuche, eine Map-Reduce-Aufgabe in einem Oozie-Workflow mit einem @ auszuführe<java> Aktion O'Reilley'sApache Oozie (Islam und Srinivasan 2015) stellt fest, dass: Während dies nicht empfohlen wird, können mit Java-Aktionen ...
Standardanzahl der Reduzierungen
Wenn wir in Hadoop nicht die Anzahl der Reduzierungen festgelegt haben, wie viele Reduzierungen werden dann erstellt? Die Anzahl der Mapper ist abhängig von (Gesamtdatengröße) / (Eingabe-Split-Größe), Z.B. Wenn die Datengröße 1 TB und die ...
Manupulieren Iterator in Mapreduce
Ich versuche, die Summe der angegebenen Punkte mithilfe von hadoop zu ermitteln. Das Problem besteht darin, alle Werte von einem bestimmten Schlüssel in einem einzelnen Reduzierer abzurufen. Es sieht aus wie das Reducer: public static class ...
MultipleOutputFormat in hadoop
Ich bin ein Neuling in Hadoop. Ich probiere das Wordcount-Programm aus. Jetzt, um mehrere Ausgabedateien auszuprobieren, verwende ichMultipleOutputFormat. Dieser Link hat mir dabei ...
Unerwartete Ergebnisse in Spark MapReduce
Ich bin neu bei Spark und möchte verstehen, wie MapReduce unter der Haube ausgeführt wird, um sicherzustellen, dass ich es richtig verwende.Dieser Beitra [https://stackoverflow.com/a/32520848/5880417] hat eine großartige Antwort geliefert, aber ...
Wie man Mongodb gruppiert - mapReduce Ausgabe?
Ich habe eine Abfrage in Bezug auf das MapReduce-Framework in Mongodb, also habe ich ein Ergebnis des Schlüsselwertpaars aus der MapReduce-Funktion. Jetzt möchte ich die Abfrage für diese Ausgabe von MapReduce ausführen. So verwende ich ...
Ausgabedateinamenpräfix für DataFrame.write () ändern
Output-Dateien, die mit der Spark-SQL-Methode DataFrame.write () generiert wurden, beginnen mit dem Basisnamen-Präfix "part". z.B DataFrame sample_07 = hiveContext.table("sample_07"); sample_07.write().parquet("sample_07_parquet");Ergebnisse ...
Große Datenmengen mit MapReduce / Hadoop sortieren
Ich lese gerade über MapReduce und das Folgende verwirrt mich. Angenommen, wir haben eine Datei mit 1 Million Einträgen (Ganzzahlen) und möchten sie mit MapReduce sortieren. Die Art und Weise, wie ich es verstanden habe, ist wie ...
Was ist der effizienteste Weg, um eine sortierte Reduzierung in PySpark durchzuführen?
Ich analysiere pünktliche Leistungsnachweise von US-Inlandsflügen aus dem Jahr 2015. Ich muss nach Schwanznummer gruppieren und eine nach Datum sortierte Liste aller Flüge für jede Schwanznummer in einer Datenbank speichern, um von ...
IllegalAccessError to guava's StopWatch from org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus
Ich versuche, eine kleine Funkenanwendung auszuführen, und erhalte die folgende Ausnahme: Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from ...