Policz linie w dużych plikach
Często pracuję z plikami tekstowymi o rozmiarze ~ 20 Gb i bardzo często zliczam liczbę wierszy w danym pliku.
Sposób, w jaki to robię teraz, jest po prostucat fname | wc -l
i trwa to bardzo długo. Czy jest jakieś rozwiązanie, które byłoby znacznie szybsze?
Pracuję w klastrze o wysokiej wydajności z zainstalowanym Hadoop. Zastanawiałem się, czy podejście do mapy może pomóc.
Chciałbym, aby rozwiązanie było tak proste, jak jedno uruchomienie linii, jakwc -l
rozwiązanie, ale nie jestem pewien, jak to możliwe.
Jakieś pomysły?