Warum arbeitet uniq nicht an dieser großen Datei? bash
Diese andere Noob-Frage tut mir wirklich leid, aber ich kann nicht wirklich herausfinden, was hier passiert. Ich möchte die Häufigkeit der Wörter aus einer Datei berechnen, wobei die Wörter zeilenweise sind. Die Datei ist wirklich groß, daher könnte dies das Problem sein (in diesem Beispiel werden 300.000 Zeilen gezählt)
Ich mache diesen Befehl:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
und das problem ist, dass es mir einen kleinen fehler macht: es betrachtet mich als verschiedene wörter. Zum Beispiel sind die ersten Einträge:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
mit Giochi zweimal wiederholt, wie Sie sehen können
am Ende der Datei wird es noch schlimmer und es sieht so aus:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
für alle Wörter
Die blöde Frage tut mir wirklich wieder leid, aber ich bin ein bisschen noob mit Shell-Programmierung. Was mache ich falsch?
Danke vielmals