Geschwindigkeitsverbesserung bei großen Pandas read_csv mit datetime Index
Ich habe riesige Dateien, die so aussehen:
05/31 / 2012,15: 30: 00,029,1306,25,1, E, 0, 1306,25
05/31 / 2012,15: 30: 00,029,1306,25,8, E, 0, 1306,25
Ich kann sie leicht lesen, indem ich Folgendes benutze:
pd.read_csv(gzip.open("myfile.gz"), header=None,names=
["date","time","price","size","type","zero","empty","last"], parse_dates=[[0,1]])
Gibt es eine Möglichkeit, Daten wie diese effizient in Pandas Zeitstempel zu zerlegen? Wenn nicht, gibt es eine Anleitung zum Schreiben einer Cython-Funktion, die an date_parser = übergeben werden kann?
Ich habe versucht, meine eigene Parser-Funktion zu schreiben, und das Projekt, an dem ich arbeite, dauert immer noch zu lange.