Beste aufteilbare Komprimierung für Hadoop-Eingabe = bz2?
Wir haben etwas zu spät erkannt, dass die Archivierung unserer Dateien im GZip-Format für die Hadoop-Verarbeitung keine so gute Idee ist. GZip ist nicht spaltbar, und als Referenz hier sind die Probleme, die ich nicht wiederholen werde:
Sehr grundlegende Frage zu Hadoop und komprimierten EingabedateienHadoop gzip komprimierte DateienHadoop-gzip-Eingabedatei mit nur einem MapperWarum kann hadoop eine große Textdatei nicht aufteilen und die Teilungen dann mit gzip komprimieren?Meine Frage ist: Ist BZip2 die beste Archivkomprimierung, mit der eine einzelne Archivdatei von Hadoop parallel verarbeitet werden kann? Gzip ist definitiv nicht, und aus meiner Lektüre hat LZO einige Probleme.