Dlaczego uniq nie działa na tym dużym pliku? grzmotnąć
Naprawdę przepraszam za to inne pytanie noob, ale nie mogę zrozumieć, co się tutaj dzieje. Chcę obliczyć częstotliwość słów z pliku, gdzie słowa są po kolei. Plik jest naprawdę duży, więc może to być problem (w tym przykładzie liczy 300 tys. Linii)
Robię to polecenie:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
problem polega na tym, że daje mi mały błąd: uważa mnie za te same słowa, co inne. Na przykład pierwsze wpisy to:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
z giochi powtarzane dwa razy, jak widać
na dole pliku jest jeszcze gorzej i wygląda tak:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
za wszystkie słowa
Naprawdę przepraszam za głupie pytanie, ale nie jestem zbytnio zadowolony z programowania powłoki. Co ja robię źle?
wielkie dzięki