Pandas read_stata () mit großen .dta-Dateien

Question

Nov 02, 2013, 06:09 PM

Pandas read_stata () mit großen .dta-Dateien

Ich arbeite mit einer Stata-DTA-Datei, die etwa 3,3 Gigabyte groß, aber nicht übermäßig groß ist. Ich bin an IPython interessiert und habe versucht, die .dta-Datei mit Pandas zu importieren, aber etwas Wonky ist im Gange. Meine Box hat 32 Gigabyte RAM und der Versuch, die .dta-Datei zu laden, führt dazu, dass der gesamte RAM (nach ~ 30 Minuten) verwendet wird und mein Computer abstürzt. Dies fühlt sich nicht richtig an, da ich die Datei in R mit read.dta () aus dem Fremdpaket problemlos öffnen kann und die Arbeit mit der Datei in Stata in Ordnung ist. Der Code, den ich benutze, ist:

%time myfile = pd.read_stata(data_dir + 'my_dta_file.dta')

und ich verwende IPython in Enthought's Canopy-Programm. Der Grund für die '% time' ist, dass ich daran interessiert bin, dies mit der read.dta () von R zu vergleichen.

Meine Fragen sind:

Gibt es etwas, was ich falsch mache, was dazu führt, dass Pandas Probleme haben?Gibt es eine Problemumgehung, um die Daten in einen Pandas-Datenframe zu übertragen?