Was ist die effizienteste Methode, um Vorkommen bei Pandas zu zählen?

Question

Nov 19, 2013, 04:58 PM

Was ist die effizienteste Methode, um Vorkommen bei Pandas zu zählen?

Ich habe einen großen Datenrahmen (ca. 12M Zeilen) mit df sagen:

df.columns = ['word','documents','frequency']

So lief das Folgende pünktlich ab:

word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']

Dies dauert jedoch unerwartet lange:

Occurrences_of_Words = word_grouping[['word']].count().reset_index()

Was mache ich hier falsch? Gibt es eine bessere Möglichkeit, Vorkommen in einem großen Datenrahmen zu zählen?

df.word.describe()

lief ziemlich gut, so dass ich wirklich nicht damit gerechnet habe, dass der Aufbau dieses Occurrences_of_Words-Datenrahmens sehr lange dauert.

ps: Wenn die Antwort offensichtlich ist und Sie das Bedürfnis haben, mich für das Stellen dieser Frage zu bestrafen, geben Sie bitte auch die Antwort an. Danke dir.