Suchergebnisse für Anfrage "hadoop"

2 die antwort

Schwein: Kontrolliere die Anzahl der Mapper

Ich kann die Anzahl der Reduzierungen steuern, indem ich die PARALLEL-Klausel in den Anweisungen verwende, die zu Reduzierungen führen. Ich möchte die Anzahl der Mapper kontrollieren. Die Datenquelle ist bereits erstellt, und ich kann die Anzahl ...

2 die antwort

Speichern von Daten in SequenceFile von Apache Pig

Apache Pig Mit der PiggyBank können Daten aus Hadoop-Sequenzdateien geladen werdenSequenceFileLoader: REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar; DEFINE SequenceFileLoader ...

2 die antwort

Konzentrieren Sie einspaltige Felder mit GROUP BY

Gibt es eine Möglichkeit, die Felder in einer Spalte zu kombinieren / zu verketten, indem Sie sie gruppieren. Z.B: col1 col2 1 aa 1 bb 1 cc 2 dd 2 eeIch möchte etwas abfragen wie: select col1, concat(col2) from tableName group by col1;Die ...

TOP-Veröffentlichungen

2 die antwort

Hadoop-Namenode-Metadaten - Fsimage und Bearbeiten von Protokollen

Ich verstehe, dass das fsimage beim Start in den Speicher geladen wird und alle weiteren Transaktionen aus Leistungsgründen dem Bearbeitungsprotokoll und nicht dem fsimage hinzugefügt werden. Das fsimage im Speicher wird aktualisiert, wenn der ...

1 die antwort

hadoop - map Task und statische Variable reduzieren

Ich habe gerade angefangen, an einem Hadoop / Hbase MapReduce-Job (mit Cloudera) zu arbeiten, und ich habe die folgende Frage: Nehmen wir an, wir haben eine Java-Klasse mit einer Haupt- und einer statischen Variable. Diese Klasse definiert die ...

2 die antwort

So lesen Sie gz-Dateien in Spark mit wholeTextFiles

Ich habe einen Ordner, der viele kleine .gz-Dateien (komprimierte CSV-Textdateien) enthält. Ich muss sie in meinem Spark-Job lesen, aber die Sache ist, dass ich eine Verarbeitung basierend auf Informationen im Dateinamen durchführen muss. Deshalb ...

2 die antwort

Verwendung von elasticsearch als zentrales Datenrepository

Wir verwenden derzeit elasticsearch, um ungefähr 10 Millionen Dokumente zu indizieren und zu durchsuchen. Es funktioniert gut und wir sind mit seiner Leistung zufrieden. Mein Kollege, der die Verwendung von elasticsearch initiiert hat, ist davon ...

3 die antwort

Hbase schaffte es, dass der Tierpfleger plötzlich versuchte, eine Verbindung zu localhost anstelle des Tierpflegerquorums herzustellen

Ich habe einige Tests mit Tischabbildern und Reduzierern bei großen Problemen durchgeführt. Nach einem bestimmten Zeitpunkt versagten meine Reduzierstücke, als die Arbeit zu 80% erledigt war. Wenn ich mir die Syslogs ansehe, ist das Problem, dass ...

8 die antwort

Apache Spark: Die Anzahl der Kerne im Vergleich zur Anzahl der Executoren

Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Executoren zu verstehen, wenn ich einen Spark-Job auf YARN ausführe. Die Testumgebung sieht wie folgt aus: Anzahl der Datenknoten: 3Datenknoten ...

3 die antwort

Erforderliches Feld 'client_protocol' ist nicht gesetzt

Ich verwende Hive 0.12 und versuche es mit der JDBC von Apache. Wenn ich versuche, den Code auszuführen, erhalte ich apache.thrift.TApplicationException. import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import ...