Por que o uniq não está trabalhando neste arquivo grande? bater

Eu realmente sinto muito por essa outra questão noob, mas eu não consigo entender o que está acontecendo aqui. Eu quero calcular a frequência das palavras de um arquivo, onde as palavras são uma por linha. O arquivo é realmente grande, então esse pode ser o problema (ele conta 300k linhas neste exemplo)

Eu faço este comando:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

e o problema é que isso me causa um pequeno erro: me considera as mesmas palavras como diferentes. Por exemplo, as primeiras entradas são:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi 

com giochi repetido duas vezes como você pode ver

na parte inferior do arquivo fica ainda pior e se parece com isso:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind 

por todas as palavras

Eu realmente sinto muito pela pergunta estúpida, mas eu sou meio noob com programação shell. O que estou fazendo de errado?

Muito obrigado

questionAnswers(4)

yourAnswerToTheQuestion