Почему Uniq не работает с этим большим файлом? удар
Мне очень жаль за этот другой вопрос, но я не могу понять, что здесь происходит. Я хочу вычислить частоту слов из файла, где слова расположены по одной строке. Файл действительно большой, так что это может быть проблемой (в этом примере он насчитывает 300 тыс. Строк)
Я делаю эту команду:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
и проблема в том, что это дает мне небольшую ошибку: он считает меня одними и теми же словами разными. Например, первые записи:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
с Giochi повторяется дважды, как вы можете видеть
внизу файла становится еще хуже, и это выглядит так:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
для всех слов
Мне действительно очень жаль снова за глупый вопрос, но я вроде как новичок с программированием оболочки. Что я делаю неправильно?
большое спасибо