Итеративно получать предполагаемые типы данных с помощью chunksize

Question

Mar 21, 2013, 06:10 PM

Итеративно получать предполагаемые типы данных с помощью chunksize

Как я могу использовать pd.read_csv () для итеративного разбиения файла на части и сохранения dtype и другой метаинформации, как если бы я прочитал сразу весь набор данных?

Мне нужно прочитать в наборе данных, который слишком велик, чтобы поместиться в памяти. Я хотел бы импортировать файл, используя pd.read_csv, а затем немедленно добавить чанк в хранилище HDFS. Однако вывод типа данных ничего не знает о последующих фрагментах.

Если первый блок, хранящийся в таблице, содержит только int, а следующий блок содержит число с плавающей запятой, будет сгенерировано исключение. Поэтому мне нужно сначала перебрать кадр данных, используя read_csv, и сохранитьнаибольший предполагаемый тип. Кроме того, для типов объектов мне нужно сохранить максимальную длину, поскольку они будут храниться в виде строк в таблице.

Есть ли пандонический способ сохранить только эту информацию без чтения во всем наборе данных?

Итеративно получать предполагаемые типы данных с помощью chunksize

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Итеративно получать предполагаемые типы данных с помощью chunksize

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы