Suchergebnisse für Anfrage "hadoop"
Schwein: Kontrolliere die Anzahl der Mapper
Ich kann die Anzahl der Reduzierungen steuern, indem ich die PARALLEL-Klausel in den Anweisungen verwende, die zu Reduzierungen führen. Ich möchte die Anzahl der Mapper kontrollieren. Die Datenquelle ist bereits erstellt, und ich kann die Anzahl ...
Speichern von Daten in SequenceFile von Apache Pig
Apache Pig Mit der PiggyBank können Daten aus Hadoop-Sequenzdateien geladen werdenSequenceFileLoader: REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar; DEFINE SequenceFileLoader ...
Konzentrieren Sie einspaltige Felder mit GROUP BY
Gibt es eine Möglichkeit, die Felder in einer Spalte zu kombinieren / zu verketten, indem Sie sie gruppieren. Z.B: col1 col2 1 aa 1 bb 1 cc 2 dd 2 eeIch möchte etwas abfragen wie: select col1, concat(col2) from tableName group by col1;Die ...
Hadoop-Namenode-Metadaten - Fsimage und Bearbeiten von Protokollen
Ich verstehe, dass das fsimage beim Start in den Speicher geladen wird und alle weiteren Transaktionen aus Leistungsgründen dem Bearbeitungsprotokoll und nicht dem fsimage hinzugefügt werden. Das fsimage im Speicher wird aktualisiert, wenn der ...
hadoop - map Task und statische Variable reduzieren
Ich habe gerade angefangen, an einem Hadoop / Hbase MapReduce-Job (mit Cloudera) zu arbeiten, und ich habe die folgende Frage: Nehmen wir an, wir haben eine Java-Klasse mit einer Haupt- und einer statischen Variable. Diese Klasse definiert die ...
So lesen Sie gz-Dateien in Spark mit wholeTextFiles
Ich habe einen Ordner, der viele kleine .gz-Dateien (komprimierte CSV-Textdateien) enthält. Ich muss sie in meinem Spark-Job lesen, aber die Sache ist, dass ich eine Verarbeitung basierend auf Informationen im Dateinamen durchführen muss. Deshalb ...
Verwendung von elasticsearch als zentrales Datenrepository
Wir verwenden derzeit elasticsearch, um ungefähr 10 Millionen Dokumente zu indizieren und zu durchsuchen. Es funktioniert gut und wir sind mit seiner Leistung zufrieden. Mein Kollege, der die Verwendung von elasticsearch initiiert hat, ist davon ...
Hbase schaffte es, dass der Tierpfleger plötzlich versuchte, eine Verbindung zu localhost anstelle des Tierpflegerquorums herzustellen
Ich habe einige Tests mit Tischabbildern und Reduzierern bei großen Problemen durchgeführt. Nach einem bestimmten Zeitpunkt versagten meine Reduzierstücke, als die Arbeit zu 80% erledigt war. Wenn ich mir die Syslogs ansehe, ist das Problem, dass ...
Apache Spark: Die Anzahl der Kerne im Vergleich zur Anzahl der Executoren
Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Executoren zu verstehen, wenn ich einen Spark-Job auf YARN ausführe. Die Testumgebung sieht wie folgt aus: Anzahl der Datenknoten: 3Datenknoten ...
Erforderliches Feld 'client_protocol' ist nicht gesetzt
Ich verwende Hive 0.12 und versuche es mit der JDBC von Apache. Wenn ich versuche, den Code auszuführen, erhalte ich apache.thrift.TApplicationException. import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import ...