jaki jest najbardziej skuteczny sposób liczenia zdarzeń w pandach?
Mam dużą (około 12M wierszy) ramkę danych df z powiedzeniem:
df.columns = ['word','documents','frequency']
Tak więc następowało w odpowiednim czasie:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
Uruchamianie trwa jednak nieoczekiwanie:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
Co ja tu robię źle? Czy istnieje lepszy sposób liczenia zdarzeń w dużej ramce danych?
df.word.describe()
działał całkiem nieźle, więc naprawdę nie spodziewałem się, że budowanie ramki danych Occurrences_of_Words zajmie bardzo dużo czasu.
ps: Jeśli odpowiedź jest oczywista i odczuwasz potrzebę ukarania mnie za zadanie tego pytania, proszę również podać odpowiedź. Dziękuję Ci.