HDF5 tomando más espacio que CSV?
Considere el siguiente ejemplo:
Preparar los datos:import string
import random
import pandas as pd
matrix = np.random.random((100, 3000))
my_cols = [random.choice(string.ascii_uppercase) for x in range(matrix.shape[1])]
mydf = pd.DataFrame(matrix, columns=my_cols)
mydf['something'] = 'hello_world'
Establezca la compresión más alta posible para HDF5:store = pd.HDFStore('myfile.h5',complevel=9, complib='bzip2')
store['mydf'] = mydf
store.close()
Guardar también en CSV:mydf.to_csv('myfile.csv', sep=':')
El resultado es:
myfile.csv
es de 5,6 MB grandemyfile.h5
es 11 MB grandeLa diferencia crece a medida que los conjuntos de datos se hacen más grandes.
Lo he intentado con otros métodos y niveles de compresión. ¿Es esto un error? (Estoy usando Pandas 0.11 y la última versión estable de HDF5 y Python).