Feb 15, 2017, 06:56 AM

linux mapreduce

Подсчет строк в больших файлах

Я обычно работаю с текстовыми файлами размером ~ 20 Гб и очень часто считаю количество строк в данном файле.

То, как я это делаю сейчас, простоcat fname | wc -lи это занимает очень много времени. Есть ли какое-нибудь решение, которое будет намного быстрее?

Я работаю в высокопроизводительном кластере с установленным Hadoop. Мне было интересно, может ли помочь подход уменьшения карты.

Мне бы хотелось, чтобы решение было таким простым, как одна строка, напримерwc -l решение, но не уверен, насколько это возможно.

Есть идеи?

Ответы на вопрос(12)

Популярные вопросы

0 ответов

CakePHP без макета на кнопку назад и вперед

0 ответов

Разбить массив на два массива по индексу четного или нечетного

0 ответов

HTML5 <video> может воспроизводить файлы .mkv?

0 ответов

В чем разница между @BeforeClass и Spring @TestExecutionListener beforeTestClass ()

0 ответов

Почему прокси не используется для автоматического подключения