¿La forma más rápida de escribir archivos HDF5 con Python?

Dado un archivo CSV grande (10s de GB) de texto / números mixtos, ¿cuál es la forma más rápida de crear un archivo HDF5 con el mismo contenido, manteniendo el uso de memoria razonable?

Me gustaría usar lah5py módulo si es posible.

En el ejemplo de juguete a continuación, he encontrado una manera increíblemente lenta e increíblemente rápida de escribir datos en HDF5. ¿Sería una buena práctica escribir en HDF5 en trozos de 10.000 filas más o menos? ¿O hay una mejor manera de escribir una cantidad masiva de datos en dicho archivo?

import h5py

n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')

# this is terribly slow
for i in xrange(n):
  dset[i] = i

# instantaneous
dset[...] = 42

Respuestas a la pregunta(3)

Su respuesta a la pregunta