Obtenga tipos de marcos de datos inferidos de forma iterativa utilizando chunksize

Question

Mar 21, 2013, 07:10 PM

Obtenga tipos de marcos de datos inferidos de forma iterativa utilizando chunksize

¿Cómo puedo usar pd.read_csv () para repasar iterativamente un archivo y retener el dtype y otra metainformación como si leyera todo el conjunto de datos a la vez?

Necesito leer un conjunto de datos que sea demasiado grande para que quepa en la memoria. Me gustaría importar el archivo usando pd.read_csv y luego agregar inmediatamente el fragmento a un HDFStore. Sin embargo, la inferencia del tipo de datos no sabe nada sobre los fragmentos subsiguientes.

Si el primer fragmento almacenado en la tabla solo contiene int y un fragmento posterior contiene un flotante, se generará una excepción. Por lo tanto, primero tengo que recorrer el marco de datos usando read_csv y conservar elmás alto Tipo inferido. Además, para los tipos de objetos, necesito conservar la longitud máxima, ya que se almacenarán como cadenas en la tabla.

¿Existe una forma pandónica de retener solo esta información sin leer todo el conjunto de datos?