Hadoop Non-splittable TextInputFormat
Czy istnieje sposób na przesłanie całego pliku do programu mapującego bez podziału?
przeczytałemto ale zastanawiam się, czy jest inny sposób na zrobienie tego samego bez konieczności generowania pliku pośredniego. Idealnie chciałbym istniejącą opcję w linii poleceń do Hadoop.
Używamstreaming
obiekt ze skryptami Pythona na Amazon EMR.