Obtenha tipos de conjuntos de dados inferidos iterativamente usando chunksize

Question

Mar 21, 2013, 07:10 PM

Obtenha tipos de conjuntos de dados inferidos iterativamente usando chunksize

Como posso usar pd.read_csv () para dividir iterativamente por um arquivo e reter o dtype e outras metainformações como se eu lesse o conjunto de dados inteiro de uma só vez?

Eu preciso ler em um conjunto de dados que é muito grande para caber na memória. Eu gostaria de importar o arquivo usando pd.read_csv e, em seguida, anexar imediatamente o pedaço em um HDFStore. No entanto, a inferência de tipo de dados não sabe nada sobre partes subseqüentes.

Se o primeiro fragmento armazenado na tabela contiver apenas int e um fragmento subsequente contiver um float, uma exceção será levantada. Então eu preciso primeiro iterar através do dataframe usando read_csv e manter omaior tipo inferido. Além disso, para tipos de objeto, preciso manter o comprimento máximo, pois eles serão armazenados como sequências na tabela.

Existe uma maneira pandônica de reter apenas essas informações sem ler todo o conjunto de dados?