¿Cuál es la forma más eficiente de contar las ocurrencias en pandas?
Tengo un df de datos grande (alrededor de 12M filas) con decir:
df.columns = ['word','documents','frequency']
Así que lo siguiente se ejecutó de manera oportuna:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
Sin embargo, esto está demorando un tiempo inesperado en ejecutarse:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
¿Qué estoy haciendo mal aquí? ¿Hay una mejor manera de contar las ocurrencias en un gran marco de datos?
df.word.describe()
funcionó bastante bien, por lo que realmente no esperaba que este marco de datos de Ocurrencias de los Datos tomara mucho tiempo en construirse.
ps: Si la respuesta es obvia y sientes la necesidad de penalizarme por hacer esta pregunta, incluye la respuesta también. gracias.