¿Por qué uniq no está trabajando en este gran archivo? golpetazo
Lo siento mucho por esta otra pregunta noob, pero realmente no puedo entender qué está pasando aquí. Quiero calcular la frecuencia de las palabras de un archivo, donde las palabras son una por línea. El archivo es realmente grande, por lo que este podría ser el problema (en este ejemplo se cuentan 300k líneas)
Yo hago este comando:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
y el problema es que me da un pequeño error: me considera las mismas palabras como diferentes. Por ejemplo las primeras entradas son:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
con giochi repetido dos veces como puedes ver
en la parte inferior del archivo se pone aún peor y se ve así:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
por todas las palabras
Lo siento de nuevo por la estúpida pregunta, pero soy un poco novato con la programación de shell. ¿Qué estoy haciendo mal?
muchas gracias