Uzyskaj wnioskowane typy ramek danych iteracyjnie przy użyciu chunksize

Question

Mar 21, 2013, 07:10 PM

Uzyskaj wnioskowane typy ramek danych iteracyjnie przy użyciu chunksize

Jak mogę użyć pd.read_csv (), aby iteracyjnie przeglądać plik i zachować dtype i inne meta-informacje tak, jakbym czytał cały zestaw danych jednocześnie?

Muszę przeczytać zestaw danych, który jest zbyt duży, aby zmieścić się w pamięci. Chciałbym zaimportować plik za pomocą pd.read_csv, a następnie natychmiast dodać fragment do HDFStore. Jednak wnioskowanie typu danych nic nie wie o kolejnych porcjach.

Jeśli pierwsza porcja przechowywana w tabeli zawiera tylko int, a kolejna porcja zawiera float, zostanie zgłoszony wyjątek. Muszę najpierw iterować przez ramkę danych przy użyciu read_csv i zachowaćnajwyższy wywnioskowany typ. Ponadto w przypadku typów obiektów muszę zachować maksymalną długość, ponieważ będą one przechowywane w łańcuchu jako łańcuchy.

Czy istnieje pandoniczny sposób zachowania tylko tych informacji bez czytania w całym zbiorze danych?