Apache Pig: Załaduj plik, który pokazuje, jak dobrze używać hadoop fs -text
Mam pliki o nazwach part-r-000 [0-9] [0-9] i zawierające pola oddzielone tabulatorami. Mogę je zobaczyć używająchadoop fs -text part-r-00000
ale nie można ich załadować za pomocą świni.
Co próbowałem:
x = load 'part-r-00000';
dump x;
x = load 'part-r-00000' using TextLoader();
dump x;
ale to tylko daje mi śmieci. Jak mogę wyświetlić plik za pomocą świni?
Istotne może być to, że moje hdfs nadal używają CDH-2. Ponadto, jeśli ściągnę plik do lokalnego i uruchomięfile part-r-00000
to mówipart-r-00000: data
, Nie wiem, jak rozpakować go lokalnie.