Escribir un gran conjunto de datos hdf5 usando h5py

Question

Dec 30, 2015, 03:32 PM

Escribir un gran conjunto de datos hdf5 usando h5py

Por el momento, estoy usando h5py para generar conjuntos de datos hdf5. Tengo algo como esto

import h5py
import numpy as np
my_data=np.genfromtxt("/tmp/data.csv",delimiter=",",dtype=None,names=True)

myFile="/tmp/f.hdf"    
with h5py.File(myFile,"a") as f:
  dset = f.create_dataset('%s/%s'%(vendor,dataSet),data=my_data,compression="gzip",compression_opts=9)

Esto funciona bien para un archivo ASCII relativamente grande (400 MB). Me gustaría hacer lo mismo para un conjunto de datos aún más grande (40 GB). ¿Hay una manera mejor o más eficiente de hacer esto con h5py? Quiero evitar cargar todo el conjunto de datos en la memoria.

Alguna información sobre los datos:

No sabré el tipo de datos. Idealmente, me gustaría usardtype=None denp.loadtxt()No sabré el tamaño (dimensiones) del archivo. Ellos varian