Conte linhas em arquivos grandes
Eu costumo trabalhar com arquivos de texto de ~ 20 Gb e me vejo contando o número de linhas em um determinado arquivo com muita freqüência.
O jeito que eu faço agora é sócat fname | wc -l
e demora muito tempo. Existe alguma solução que seria muito mais rápida?
Eu trabalho em um cluster de alto desempenho com o Hadoop instalado. Eu queria saber se uma abordagem de redução de mapa poderia ajudar.
Eu gostaria que a solução fosse tão simples quanto uma linha, comowc -l
solução, mas não tenho certeza de como é viável.
Alguma ideia?