Wie in Pandas nach eindeutigem Index in mehreren Spalten summieren?

Ich habe einen Pandas-DataFrame, der Online-Aktivitäten in Form von "Klicks" während einer Benutzersitzung ausführlich beschreibt. Es gibt bis zu 50.000 eindeutige Benutzer, und der Datenrahmen verfügt über rund 1,5 Millionen Stichproben. Offensichtlich haben die meisten Benutzer mehrere Datensätze.

Die vier Spalten sind eine eindeutige Benutzer-ID, das Datum, an dem der Benutzer den Dienst "Registrierung" gestartet hat, das Datum, an dem der Benutzer den Dienst "Sitzung" verwendet hat, sowie die Gesamtzahl der Klicks.

Die Organisation des Datenrahmens lautet wie folgt:

User_ID    Registration  Session      clicks
2349876    2012-02-22    2014-04-24   2 
1987293    2011-02-01    2013-05-03   1 
2234214    2012-07-22    2014-01-22   7 
9874452    2010-12-22    2014-08-22   2 
...

(Es gibt oben auch einen Index, der mit 0 beginnt, aber man könnte @ setzeUser_ID als Index.)

Ich möchte die Gesamtzahl der Klicks des Nutzers seit dem Registrierungsdatum zusammenfassen. Der Datenrahmen (oder das Pandas Series-Objekt) listet User_ID und "Total_Number_Clicks" auf.

User_ID    Total_Clicks
2349876    722 
1987293    341
2234214    220 
9874452    1405 
...

Wie macht man das bei Pandas? Ist das erledigt von.agg()? JederUser_ID muss einzeln summiert werden.

Als es 1,5 Millionen Datensätze gibt, ist diese Skala?

Antworten auf die Frage(6)

Ihre Antwort auf die Frage