Suchergebnisse für Anfrage "mapreduce"

2 die antwort

PySpark Wie man CSV in Dataframe einliest und manipuliert

Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...

2 die antwort

Wie wird ein Reduzierer zum Senden von <Text, IntWritable> und ein Mapper zum Empfangen von <Text, IntWritable> festgelegt?

Ich entwickle Code für hadoop mitKarte verkleiner das benutztzwei Mapper und zwei Reduzierer. Ich wurde angewiesen, @ zu verwend SequenceFileInputFormat und SequenceFileOutputFormat, damit die Ausgabe des ersten Reduzierers und die Eingabe des ...

2 die antwort

Mit MapReduce in MongoDB zwei Sammlungen beitreten

Ich weiß bereits, dass MongoDB keine Join-Operationen unterstützt, aber ich muss ein @ simulier$lookup (aus dem Aggregationsframework) mit demmapReduce Paradigma Meine zwei Sammlungen sind: // Employees sample { "_id" : "1234", "first_name" : ...

TOP-Veröffentlichungen

2 die antwort

Wie kann ich ein Map / Reduce-Ergebnis erhalten, das in absteigender Reihenfolge nach dem Wert "value" sortiert ist? Wenn dies auch mit der Listenfunktion erreicht werden kann?

Ich habe Karte anzeigen und verkleinern wie folgt: Map: function(doc) { if(doc.type){ var usersLength = doc.users.length; for (var i = 0; i < usersLength ; i++) { emit([doc.users[i].userid,doc.Service.ownId], 1); } } }Reduzieren function(keys, ...

2 die antwort

Warum ist die setMapOutputKeyClass-Methode im Mapreduce-Job erforderlich?

Wenn ich das Programm mapreduce schreibe, schreibe ich oft den Code wie job1.setMapOutputKeyClass(Text.class);Aber warum sollten wir die MapOutputKeyClass explizit angeben? Wir haben es bereits in der Mapper-Klasse spezifiziert, wie zB public ...

6 die antwort

Spark java.lang.StackOverflowError

Ich verwende spark, um den PageRank von Nutzerbewertungen zu berechnen, erhalte aber weiterhin Spark java.lang.StackOverflowError, wenn ich meinen Code auf einem großen Datensatz (40.000 Einträge) ausführe. Wenn Sie den Code für eine kleine ...

2 die antwort

So serialisiere ich ein Objekt in Hadoop (in HDFS)

Ich habe eine HashMap <String, ArrayList <Integer>>. Ich möchte mein HashMap-Objekt (hmap) in einen HDFS-Speicherort serialisieren und es später in Mapper and Reducers deserialisieren, um es zu verwenden. Um mein HashMap-Objekt unter HDFS zu ...

2 die antwort

Extrahieren von Zeilen mit bestimmten Werten mit mapReduce und hadoop

Ich bin neu in der Entwicklung der Kartenreduzierungsfunktion. Betrachte ich habe csv Datei mit vier Spaltendaten. Beispielsweise 101,87,65,67 102,43,45,40 103,23,56,34 104,65,55,40 105,87,96,40Now, ich möchte extrahieren sagen 40 102 40 104 ...

18 die antwort

IllegalAccessError to guava's StopWatch from org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus

Ich versuche, eine kleine Funkenanwendung auszuführen, und erhalte die folgende Ausnahme: Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from ...

2 die antwort

Was ist der effizienteste Weg, um eine sortierte Reduzierung in PySpark durchzuführen?

Ich analysiere pünktliche Leistungsnachweise von US-Inlandsflügen aus dem Jahr 2015. Ich muss nach Schwanznummer gruppieren und eine nach Datum sortierte Liste aller Flüge für jede Schwanznummer in einer Datenbank speichern, um von ...