Abgeleitete Datenrahmentypen werden iterativ mit Chunksize abgerufen

Question

Mar 21, 2013, 07:10 PM

Abgeleitete Datenrahmentypen werden iterativ mit Chunksize abgerufen

Wie kann ich pd.read_csv () verwenden, um iterativ eine Datei zu durchsuchen und den D-Typ und andere Metainformationen beizubehalten, als würde ich den gesamten Datensatz auf einmal einlesen?

Ich muss einen Datensatz einlesen, der zu groß ist, um in den Speicher zu passen. Ich möchte die Datei mit pd.read_csv importieren und den Chunk dann sofort in einen HDFStore anhängen. Die Datentypinferenz weiß jedoch nichts über nachfolgende Chunks.

Wenn der erste in der Tabelle gespeicherte Block nur int enthält und ein nachfolgender Block einen Float enthält, wird eine Ausnahme ausgelöst. Also muss ich zuerst mit read_csv durch den Datenrahmen iterieren und diehöchste abgeleiteter Typ. Außerdem muss ich für Objekttypen die maximale Länge beibehalten, da diese als Zeichenfolgen in der Tabelle gespeichert werden.

Gibt es eine pandonische Möglichkeit, nur diese Informationen zu speichern, ohne den gesamten Datensatz einzulesen?