Dlaczego uniq nie działa na tym dużym pliku? grzmotnąć

Naprawdę przepraszam za to inne pytanie noob, ale nie mogę zrozumieć, co się tutaj dzieje. Chcę obliczyć częstotliwość słów z pliku, gdzie słowa są po kolei. Plik jest naprawdę duży, więc może to być problem (w tym przykładzie liczy 300 tys. Linii)

Robię to polecenie:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

problem polega na tym, że daje mi mały błąd: uważa mnie za te same słowa, co inne. Na przykład pierwsze wpisy to:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi 

z giochi powtarzane dwa razy, jak widać

na dole pliku jest jeszcze gorzej i wygląda tak:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind 

za wszystkie słowa

Naprawdę przepraszam za głupie pytanie, ale nie jestem zbytnio zadowolony z programowania powłoki. Co ja robię źle?

wielkie dzięki

questionAnswers(4)

yourAnswerToTheQuestion