Schreiben eines großen hdf5-Datensatzes mit h5py

Question

Dec 30, 2015, 03:32 PM

Schreiben eines großen hdf5-Datensatzes mit h5py

Im Moment benutze ich h5py, um hdf5-Datensätze zu generieren. Ich habe so etwas

import h5py
import numpy as np
my_data=np.genfromtxt("/tmp/data.csv",delimiter=",",dtype=None,names=True)

myFile="/tmp/f.hdf"    
with h5py.File(myFile,"a") as f:
  dset = f.create_dataset('%s/%s'%(vendor,dataSet),data=my_data,compression="gzip",compression_opts=9)

Dies funktioniert gut für eine relativ große ASCII-Datei (400 MB). Ich möchte das gleiche für einen noch größeren Datensatz (40 GB) tun. Gibt es eine bessere oder effizientere Möglichkeit, dies mit h5py zu tun? Ich möchte vermeiden, dass der gesamte Datensatz in den Speicher geladen wird.

Einige Informationen zu den Daten:

Ich kenne den Typ der Daten nicht. Idealerweise würde ich gerne @ verwenddtype=None vonnp.loadtxt()Ich kenne die Größe (Abmessungen) der Datei nicht. Sie variieren