Anexando Coluna ao Quadro do Arquivo HDF nos Pandas

Question

Dec 06, 2013, 05:03 PM

Anexando Coluna ao Quadro do Arquivo HDF nos Pandas

Eu estou trabalhando com um grande conjunto de dados no formato CSV. Estou tentando processar os dados coluna por coluna e, em seguida, anexar os dados a um quadro em um arquivo HDF. Tudo isso é feito usando Pandas. Minha motivação é que, enquanto todo o conjunto de dados é muito maior do que minha memória física, o tamanho da coluna é gerenciável. Posteriormente, estarei realizando regressão logística por recursos, carregando as colunas de volta à memória uma por uma e operando nelas.

Eu sou capaz de fazer um novo arquivo HDF e fazer um novo quadro com a primeira coluna:

hdf_file = pandas.HDFStore('train_data.hdf')
feature_column = pandas.read_csv('data.csv', usecols=[0])
hdf_file.append('features', feature_column)

Mas depois disso, recebo um ValueError ao tentar acrescentar uma nova coluna ao quadro:

feature_column = pandas.read_csv('data.csv', usecols=[1])
hdf_file.append('features', feature_column)

Rastreio de pilha e mensagem de erro:

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 658, in append self._write_to_group(key, value, table=True, append=True, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 923, in _write_to_group s.write(obj = value, append=append, complib=complib, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 2985, in write **kwargs)
File "/usr/local/lib/python2.7/dist-packages/pandas/io/pytables.py", line 2675, in create_axes raise ValueError("cannot match existing table structure for [%s] on appending data" % items)
ValueError: cannot match existing table structure for [srch_id] on appending data

Sou novo em trabalhar com grandes conjuntos de dados e memória limitada, por isso estou aberto a sugestões de maneiras alternativas de trabalhar com esses dados.