¿Cuál es la forma más eficiente de contar las ocurrencias en pandas?

Question

Nov 19, 2013, 04:58 PM

¿Cuál es la forma más eficiente de contar las ocurrencias en pandas?

Tengo un df de datos grande (alrededor de 12M filas) con decir:

df.columns = ['word','documents','frequency']

Así que lo siguiente se ejecutó de manera oportuna:

word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']

Sin embargo, esto está demorando un tiempo inesperado en ejecutarse:

Occurrences_of_Words = word_grouping[['word']].count().reset_index()

¿Qué estoy haciendo mal aquí? ¿Hay una mejor manera de contar las ocurrencias en un gran marco de datos?

df.word.describe()

funcionó bastante bien, por lo que realmente no esperaba que este marco de datos de Ocurrencias de los Datos tomara mucho tiempo en construirse.

ps: Si la respuesta es obvia y sientes la necesidad de penalizarme por hacer esta pregunta, incluye la respuesta también. gracias.

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

EF 4.1 - Relaciones modelo

0 la respuesta

Git-flow y master con múltiples ramas de liberación paralelas.

0 la respuesta

¿Método da ActiveRecord :: Error de relación?

0 la respuesta

Anular / omitir / cancelar la representación de una vista Razor

0 la respuesta

jquery ajax / django - presente la forma en un modo de arranque y volver a mostrar si la validación no tuvo éxito

¡Eres muy activo! ¡Es genial!

¿Cuál es la forma más eficiente de contar las ocurrencias en pandas?

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares