ключевые слова.
вая большой (10 с ГБ) CSV-файл со смешанным текстом / цифрами, каков самый быстрый способ создания файла HDF5 с тем же содержимым при сохранении разумного использования памяти?
Я хотел бы использоватьh5py
модуль, если это возможно.
В приведенном ниже примере с игрушкой я обнаружил невероятно медленный и невероятно быстрый способ записи данных в HDF5. Будет ли лучше записывать в HDF5 порциями по 10 000 строк или около того? Или есть лучший способ записать огромное количество данных в такой файл?
import h5py
n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')
# this is terribly slow
for i in xrange(n):
dset[i] = i
# instantaneous
dset[...] = 42