¿Por qué uniq no está trabajando en este gran archivo? golpetazo

Question

Aug 08, 2012, 10:20 AM

¿Por qué uniq no está trabajando en este gran archivo? golpetazo

Lo siento mucho por esta otra pregunta noob, pero realmente no puedo entender qué está pasando aquí. Quiero calcular la frecuencia de las palabras de un archivo, donde las palabras son una por línea. El archivo es realmente grande, por lo que este podría ser el problema (en este ejemplo se cuentan 300k líneas)

Yo hago este comando:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

y el problema es que me da un pequeño error: me considera las mismas palabras como diferentes. Por ejemplo las primeras entradas son:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

con giochi repetido dos veces como puedes ver

en la parte inferior del archivo se pone aún peor y se ve así:

  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

por todas las palabras

Lo siento de nuevo por la estúpida pregunta, pero soy un poco novato con la programación de shell. ¿Qué estoy haciendo mal?

muchas gracias

Respuestas a la pregunta(4)

Preguntas populares

0 la respuesta

Agregar dinámicamente una clase al contenedor 'popover' de Bootstrap

0 la respuesta

¿Cómo obtengo la forma compacta de un código JSON bastante impreso?

0 la respuesta

Otra salida de comando de Linux (canalizada) como entrada a mi programa C

0 la respuesta

Swizzling y super

0 la respuesta

¿Puedo pasar un servicio sin cadenas al servicio RESTful de WCF usando UriTemplate?

¡Eres muy activo! ¡Es genial!

¿Por qué uniq no está trabajando en este gran archivo? golpetazo

Respuestas a la pregunta(4)

Su respuesta a la pregunta

Preguntas populares