Geschwindigkeitsverbesserung bei großen Pandas read_csv mit datetime Index

Ich habe riesige Dateien, die so aussehen:

05/31 / 2012,15: 30: 00,029,1306,25,1, E, 0, 1306,25

05/31 / 2012,15: 30: 00,029,1306,25,8, E, 0, 1306,25

Ich kann sie leicht lesen, indem ich Folgendes benutze:

  pd.read_csv(gzip.open("myfile.gz"), header=None,names=
  ["date","time","price","size","type","zero","empty","last"], parse_dates=[[0,1]])

Gibt es eine Möglichkeit, Daten wie diese effizient in Pandas Zeitstempel zu zerlegen? Wenn nicht, gibt es eine Anleitung zum Schreiben einer Cython-Funktion, die an date_parser = übergeben werden kann?

Ich habe versucht, meine eigene Parser-Funktion zu schreiben, und das Projekt, an dem ich arbeite, dauert immer noch zu lange.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage