Uzyskaj wnioskowane typy ramek danych iteracyjnie przy użyciu chunksize
Jak mogę użyć pd.read_csv (), aby iteracyjnie przeglądać plik i zachować dtype i inne meta-informacje tak, jakbym czytał cały zestaw danych jednocześnie?
Muszę przeczytać zestaw danych, który jest zbyt duży, aby zmieścić się w pamięci. Chciałbym zaimportować plik za pomocą pd.read_csv, a następnie natychmiast dodać fragment do HDFStore. Jednak wnioskowanie typu danych nic nie wie o kolejnych porcjach.
Jeśli pierwsza porcja przechowywana w tabeli zawiera tylko int, a kolejna porcja zawiera float, zostanie zgłoszony wyjątek. Muszę najpierw iterować przez ramkę danych przy użyciu read_csv i zachowaćnajwyższy wywnioskowany typ. Ponadto w przypadku typów obiektów muszę zachować maksymalną długość, ponieważ będą one przechowywane w łańcuchu jako łańcuchy.
Czy istnieje pandoniczny sposób zachowania tylko tych informacji bez czytania w całym zbiorze danych?