HDFStore.append (ciąg, DataFrame) nie powiedzie się, gdy zawartość kolumny ciągu jest dłuższa niż te, które już istnieją

Question

Apr 13, 2013, 04:30 PM

HDFStore.append (ciąg, DataFrame) nie powiedzie się, gdy zawartość kolumny ciągu jest dłuższa niż te, które już istnieją

Mam magazyn danych Pandas przechowywany przez magazyn HDF, który zasadniczo przechowuje wiersze podsumowujące o testach, które wykonuję.

Kilka pól w każdym wierszu zawiera opisowe łańcuchy o zmiennej długości.

Kiedy wykonuję test, tworzę nową ramkę DataFrame z jednym wierszem:

def export_as_df(self):
    return pd.DataFrame(data=[self._to_dict()], index=[datetime.datetime.now()])

A potem zadzwońHDFStore.append(string, DataFrame) aby dodać nowy wiersz do istniejącej ramki DataFrame.

Działa to dobrze, z wyjątkiem sytuacji, gdy jedna z kolumn kolumn jest większa niż najdłuższa istniejąca już instancja, po czym pojawia się następujący błąd:

File "<ipython-input-302-a33c7955df4a>", line 516, in save_pytables
store.append('tests', test.export_as_df())
File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/pytables.py", line 532, in append
self._write_to_group(key, value, table=True, append=True, **kwargs)
File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/pytables.py", line 788, in _write_to_group
s.write(obj = value, append=append, complib=complib, **kwargs)
File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/pytables.py", line 2491, in write
min_itemsize=min_itemsize, **kwargs)
File "/Library/Frameworks/EPD64.framework/Versions/7.3/lib/python2.7/site-packages/pandas/io/pytables.py", line 2254, in create_axes
raise Exception("cannot find the correct atom type -> [dtype->%s,items->%s] %s" % (b.dtype.name, b.items, str(detail)))
Exception: cannot find the correct atom type -> [dtype->object,items->Index([bp, id, inst, per, sp, st, title], dtype=object)] [values_block_3] column has a min_itemsize of [51] but itemsize [46] is required!

Nie mogę znaleźć żadnej dokumentacji dotyczącej sposobu określania długości łańcucha podczas tworzenia ramki DataFrame. Jakie jest tutaj rozwiązanie?

Aktualizacja:

Kod, który nie działa:

        store = pd.HDFStore(pytables_store)            
        for test in self.backtests:
            try:
                min_itemsizes = { 'buy_pattern' : 60, 'sell_pattern': 60, 'strategy': 60, 'title': 60 }
                store.append('tests', test.export_as_df(), min_itemsize = min_itemsizes)

Oto błąd pod 0.11rc1:

File "<ipython-input-110-492b7b6603d7>", line 522, in save_pytables
  store.append('tests', test.export_as_df(), min_itemsize = min_itemsizes)
File "/Users/admin/dev/pandas/pandas-0.11.0rc1/pandas/io/pytables.py", line 610, in append
  self._write_to_group(key, value, table=True, append=True, **kwargs)
File "/Users/admin/dev/pandas/pandas-0.11.0rc1/pandas/io/pytables.py", line 871, in _write_to_group
  s.write(obj = value, append=append, complib=complib, **kwargs)
File "/Users/admin/dev/pandas/pandas-0.11.0rc1/pandas/io/pytables.py", line 2707, in write
  min_itemsize=min_itemsize, **kwargs)
File "/Users/admin/dev/pandas/pandas-0.11.0rc1/pandas/io/pytables.py", line 2447, in create_axes
  self.validate_min_itemsize(min_itemsize)
File "/Users/admin/dev/pandas/pandas-0.11.0rc1/pandas/io/pytables.py", line 2184, in validate_min_itemsize
  raise ValueError("min_itemsize has [%s] which is not an axis or data_column" % k)
ValueError: min_itemsize has [buy_pattern] which is not an axis or data_column

Próbka danych:

                           all_day              buy_pattern  \
2013-04-14 12:11:44.377695   False  Hammer() and LowerLow()   

                                                           id instrument  \
2013-04-14 12:11:44.377695  tafdcc96ba4eb11e2a86d14109fcecd49     EURUSD   

                            open_margin periodicity sell_pattern strategy  \
2013-04-14 12:11:44.377695       0.0001     1:00:00                 Tsl()   

                           title  top_bottom  wick_body  
2013-04-14 12:11:44.377695   tsl         0.5          2

dtypes:

print prob_test.export_as_df().get_dtype_counts() 

    bool       1
    float64    2
    int64      1
    object     7
    dtype: int64

Usuwam plik h5 za każdym razem, gdy chcę uzyskać czyste wyniki. Zastanawiasz się, czy jest coś tak głupiego, jak zawodzi, ponieważ df nie istnieje w h5 (a zatem nie robi żadnych kolumn) w czasie pierwszego dołączenia?