Wie in Pandas nach eindeutigem Index in mehreren Spalten summieren?
Ich habe einen Pandas-DataFrame, der Online-Aktivitäten in Form von "Klicks" während einer Benutzersitzung ausführlich beschreibt. Es gibt bis zu 50.000 eindeutige Benutzer, und der Datenrahmen verfügt über rund 1,5 Millionen Stichproben. Offensichtlich haben die meisten Benutzer mehrere Datensätze.
Die vier Spalten sind eine eindeutige Benutzer-ID, das Datum, an dem der Benutzer den Dienst "Registrierung" gestartet hat, das Datum, an dem der Benutzer den Dienst "Sitzung" verwendet hat, sowie die Gesamtzahl der Klicks.
Die Organisation des Datenrahmens lautet wie folgt:
User_ID Registration Session clicks
2349876 2012-02-22 2014-04-24 2
1987293 2011-02-01 2013-05-03 1
2234214 2012-07-22 2014-01-22 7
9874452 2010-12-22 2014-08-22 2
...
(Es gibt oben auch einen Index, der mit 0 beginnt, aber man könnte @ setzeUser_ID
als Index.)
Ich möchte die Gesamtzahl der Klicks des Nutzers seit dem Registrierungsdatum zusammenfassen. Der Datenrahmen (oder das Pandas Series-Objekt) listet User_ID und "Total_Number_Clicks" auf.
User_ID Total_Clicks
2349876 722
1987293 341
2234214 220
9874452 1405
...
Wie macht man das bei Pandas? Ist das erledigt von.agg()
? JederUser_ID
muss einzeln summiert werden.
Als es 1,5 Millionen Datensätze gibt, ist diese Skala?