Почему Uniq не работает с этим большим файлом? удар

Question

Aug 08, 2012, 10:20 AM

Почему Uniq не работает с этим большим файлом? удар

Мне очень жаль за этот другой вопрос, но я не могу понять, что здесь происходит. Я хочу вычислить частоту слов из файла, где слова расположены по одной строке. Файл действительно большой, так что это может быть проблемой (в этом примере он насчитывает 300 тыс. Строк)

Я делаю эту команду:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

и проблема в том, что это дает мне небольшую ошибку: он считает меня одними и теми же словами разными. Например, первые записи:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

с Giochi повторяется дважды, как вы можете видеть

внизу файла становится еще хуже, и это выглядит так:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

для всех слов

Мне действительно очень жаль снова за глупый вопрос, но я вроде как новичок с программированием оболочки. Что я делаю неправильно?

большое спасибо

Почему Uniq не работает с этим большим файлом? удар

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Почему Uniq не работает с этим большим файлом? удар

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы