Anexando la columna al marco del archivo HDF en Pandas

Question

Dec 06, 2013, 05:03 PM

Anexando la columna al marco del archivo HDF en Pandas

Estoy trabajando con un gran conjunto de datos en formato CSV. Estoy tratando de procesar los datos columna por columna, luego añado los datos a un marco en un archivo HDF. Todo esto se hace utilizando Pandas. Mi motivación es que, si bien todo el conjunto de datos es mucho más grande que mi memoria física, el tamaño de la columna es manejable. En una etapa posterior, realizaré una regresión logística en función de las características, cargando las columnas en la memoria una por una y operando en ellas.

Puedo crear un nuevo archivo HDF y crear un nuevo marco con la primera columna:

hdf_file = pandas.HDFStore('train_data.hdf')
feature_column = pandas.read_csv('data.csv', usecols=[0])
hdf_file.append('features', feature_column)

Pero después de eso, obtengo un ValueError cuando intento agregar una nueva columna al marco:

feature_column = pandas.read_csv('data.csv', usecols=[1])
hdf_file.append('features', feature_column)

Rastreo de pila y mensaje de error:

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 658, in append self._write_to_group(key, value, table=True, append=True, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 923, in _write_to_group s.write(obj = value, append=append, complib=complib, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 2985, in write **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 2675, in create_axes raise ValueError("cannot match existing table structure for [%s] on appending data" % items)
ValueError: cannot match existing table structure for [srch_id] on appending data

Soy nuevo en el trabajo con grandes conjuntos de datos y memoria limitada, por lo que estoy abierto a sugerencias para formas alternativas de trabajar con estos datos.