Por que o uniq não está trabalhando neste arquivo grande? bater
Eu realmente sinto muito por essa outra questão noob, mas eu não consigo entender o que está acontecendo aqui. Eu quero calcular a frequência das palavras de um arquivo, onde as palavras são uma por linha. O arquivo é realmente grande, então esse pode ser o problema (ele conta 300k linhas neste exemplo)
Eu faço este comando:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
e o problema é que isso me causa um pequeno erro: me considera as mesmas palavras como diferentes. Por exemplo, as primeiras entradas são:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
com giochi repetido duas vezes como você pode ver
na parte inferior do arquivo fica ainda pior e se parece com isso:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
por todas as palavras
Eu realmente sinto muito pela pergunta estúpida, mas eu sou meio noob com programação shell. O que estou fazendo de errado?
Muito obrigado