¿Cuál es la compresión recomendada para HDF5 para un rendimiento de lectura / escritura rápido (en Python / pandas)?
He leído varias veces que activar la compresión en HDF5 puede conducir a un mejor rendimiento de lectura / escritura.
Me pregunto qué configuración ideal puede ser para lograr un buen rendimiento de lectura / escritura en:
data_df.to_hdf(..., format='fixed', complib=..., complevel=..., chunksize=...)
Ya estoy usandofixed
formato (es decirh5py
) ya que es más rápido quetable
. Tengo procesadores potentes y no me importa mucho el espacio en disco.
A menudo almacenoDataFrame
s defloat64
ystr
tipos en archivos de aprox. 2500 filas x 9000 columnas.