Dlaczego uniq nie działa na tym dużym pliku? grzmotnąć

Question

Aug 08, 2012, 10:20 AM

Dlaczego uniq nie działa na tym dużym pliku? grzmotnąć

Naprawdę przepraszam za to inne pytanie noob, ale nie mogę zrozumieć, co się tutaj dzieje. Chcę obliczyć częstotliwość słów z pliku, gdzie słowa są po kolei. Plik jest naprawdę duży, więc może to być problem (w tym przykładzie liczy 300 tys. Linii)

Robię to polecenie:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

problem polega na tym, że daje mi mały błąd: uważa mnie za te same słowa, co inne. Na przykład pierwsze wpisy to:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

z giochi powtarzane dwa razy, jak widać

na dole pliku jest jeszcze gorzej i wygląda tak:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

za wszystkie słowa

Naprawdę przepraszam za głupie pytanie, ale nie jestem zbytnio zadowolony z programowania powłoki. Co ja robię źle?

wielkie dzięki

questionAnswers(4)

Popularne pytania

0 odpowiedzi

Interop programu Word nie działa w zaplanowanym zadaniu

0 odpowiedzi

Etykieta PrimeFaces dla p: selectManyCheckbox

0 odpowiedzi

Przypadkowe przyklejenie treści SOAP wewnątrz nagłówka SOAP w celu uzyskania dostępu do usługi GPW za pomocą klienta WCF

0 odpowiedzi

Jak napisać multiliniczną instrukcję Jinja

0 odpowiedzi

Praca z GUID i Entity Framework

Jesteś bardzo aktywny! To świetnie!

Dlaczego uniq nie działa na tym dużym pliku? grzmotnąć

questionAnswers(4)

yourAnswerToTheQuestion

Popularne pytania