ключевые слова.

вая большой (10 с ГБ) CSV-файл со смешанным текстом / цифрами, каков самый быстрый способ создания файла HDF5 с тем же содержимым при сохранении разумного использования памяти?

Я хотел бы использоватьh5py модуль, если это возможно.

В приведенном ниже примере с игрушкой я обнаружил невероятно медленный и невероятно быстрый способ записи данных в HDF5. Будет ли лучше записывать в HDF5 порциями по 10 000 строк или около того? Или есть лучший способ записать огромное количество данных в такой файл?

import h5py

n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')

# this is terribly slow
for i in xrange(n):
  dset[i] = i

# instantaneous
dset[...] = 42

Ответы на вопрос(1)

Ваш ответ на вопрос