Подсчет строк в больших файлах
Я обычно работаю с текстовыми файлами размером ~ 20 Гб и очень часто считаю количество строк в данном файле.
То, как я это делаю сейчас, простоcat fname | wc -l
и это занимает очень много времени. Есть ли какое-нибудь решение, которое будет намного быстрее?
Я работаю в высокопроизводительном кластере с установленным Hadoop. Мне было интересно, может ли помочь подход уменьшения карты.
Мне бы хотелось, чтобы решение было таким простым, как одна строка, напримерwc -l
решение, но не уверен, насколько это возможно.
Есть идеи?