Warum arbeitet uniq nicht an dieser großen Datei? bash

Question

Aug 08, 2012, 10:20 AM

Warum arbeitet uniq nicht an dieser großen Datei? bash

Diese andere Noob-Frage tut mir wirklich leid, aber ich kann nicht wirklich herausfinden, was hier passiert. Ich möchte die Häufigkeit der Wörter aus einer Datei berechnen, wobei die Wörter zeilenweise sind. Die Datei ist wirklich groß, daher könnte dies das Problem sein (in diesem Beispiel werden 300.000 Zeilen gezählt)

Ich mache diesen Befehl:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

und das problem ist, dass es mir einen kleinen fehler macht: es betrachtet mich als verschiedene wörter. Zum Beispiel sind die ersten Einträge:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

mit Giochi zweimal wiederholt, wie Sie sehen können

am Ende der Datei wird es noch schlimmer und es sieht so aus:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

für alle Wörter

Die blöde Frage tut mir wirklich wieder leid, aber ich bin ein bisschen noob mit Shell-Programmierung. Was mache ich falsch?

Danke vielmals

Antworten auf die Frage(4)

Top Fragen

0 die antwort

UIBarButtonItem wird als blaues Quadrat anstelle des gewünschten Bildes angezeigt (Schnittstellen-Editor)

0 die antwort

SQL Server 2008: ODBC-Verbindungsprobleme

0 die antwort

Erzielen Sie ein "npm run x" -Verhalten ohne einen "Skript" -Eintrag?

0 die antwort

Regex für die Bestätigung der australischen Telefonnummer

0 die antwort

Buildout, psycopg2, postgresql

Du bist sehr aktiv! Es ist großartig!

Warum arbeitet uniq nicht an dieser großen Datei? bash

Antworten auf die Frage(4)

Ihre Antwort auf die Frage

Top Fragen