Por que o uniq não está trabalhando neste arquivo grande? bater

Question

Aug 08, 2012, 10:20 AM

Por que o uniq não está trabalhando neste arquivo grande? bater

Eu realmente sinto muito por essa outra questão noob, mas eu não consigo entender o que está acontecendo aqui. Eu quero calcular a frequência das palavras de um arquivo, onde as palavras são uma por linha. O arquivo é realmente grande, então esse pode ser o problema (ele conta 300k linhas neste exemplo)

Eu faço este comando:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

e o problema é que isso me causa um pequeno erro: me considera as mesmas palavras como diferentes. Por exemplo, as primeiras entradas são:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

com giochi repetido duas vezes como você pode ver

na parte inferior do arquivo fica ainda pior e se parece com isso:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

por todas as palavras

Eu realmente sinto muito pela pergunta estúpida, mas eu sou meio noob com programação shell. O que estou fazendo de errado?

Muito obrigado

questionAnswers(4)

Perguntas populares

0 a resposta

Você pode usar uma string para instanciar uma class

0 a resposta

Como eu uso o tabHost para Android?

0 a resposta

Como representar os dados para comentários encadeados (junto com a votação de comentários) no mongodb?

0 a resposta

Modelos recursivos Angular2 em javascript

0 a resposta

Método Boto connect_xxx e pools de conexão

Você é muito ativo! É ótimo!

Por que o uniq não está trabalhando neste arquivo grande? bater

questionAnswers(4)

yourAnswerToTheQuestion

Perguntas populares