Beste aufteilbare Komprimierung für Hadoop-Eingabe = bz2?

Wir haben etwas zu spät erkannt, dass die Archivierung unserer Dateien im GZip-Format für die Hadoop-Verarbeitung keine so gute Idee ist. GZip ist nicht spaltbar, und als Referenz hier sind die Probleme, die ich nicht wiederholen werde:

Sehr grundlegende Frage zu Hadoop und komprimierten EingabedateienHadoop gzip komprimierte DateienHadoop-gzip-Eingabedatei mit nur einem MapperWarum kann hadoop eine große Textdatei nicht aufteilen und die Teilungen dann mit gzip komprimieren?

Meine Frage ist: Ist BZip2 die beste Archivkomprimierung, mit der eine einzelne Archivdatei von Hadoop parallel verarbeitet werden kann? Gzip ist definitiv nicht, und aus meiner Lektüre hat LZO einige Probleme.

Antworten auf die Frage(4)

Ihre Antwort auf die Frage