jaki jest najbardziej skuteczny sposób liczenia zdarzeń w pandach?

Question

Nov 19, 2013, 04:58 PM

jaki jest najbardziej skuteczny sposób liczenia zdarzeń w pandach?

Mam dużą (około 12M wierszy) ramkę danych df z powiedzeniem:

df.columns = ['word','documents','frequency']

Tak więc następowało w odpowiednim czasie:

word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']

Uruchamianie trwa jednak nieoczekiwanie:

Occurrences_of_Words = word_grouping[['word']].count().reset_index()

Co ja tu robię źle? Czy istnieje lepszy sposób liczenia zdarzeń w dużej ramce danych?

df.word.describe()

działał całkiem nieźle, więc naprawdę nie spodziewałem się, że budowanie ramki danych Occurrences_of_Words zajmie bardzo dużo czasu.

ps: Jeśli odpowiedź jest oczywista i odczuwasz potrzebę ukarania mnie za zadanie tego pytania, proszę również podać odpowiedź. Dziękuję Ci.

questionAnswers(3)

Popularne pytania

0 odpowiedzi

Przyrost wartości identyfikatora tabeli dla każdego WSTAWIANIA

0 odpowiedzi

PHP XMLReader odczytuje, edytuje węzeł, pisze XMLWriter

0 odpowiedzi

Importowanie biblioteki usługi Google Play wyświetlającej czerwony znak X obok androida z odnośnikiem

0 odpowiedzi

Jak znaleźć bieżący katalog w Dart?

0 odpowiedzi

Jak dodać wskaźnik strony do paska nawigacji?

Jesteś bardzo aktywny! To świetnie!

jaki jest najbardziej skuteczny sposób liczenia zdarzeń w pandach?

questionAnswers(3)

yourAnswerToTheQuestion

Popularne pytania