HDFStore mit Zeichenfolgenspalten gibt Probleme

Question

Apr 10, 2014, 10:56 PM

HDFStore mit Zeichenfolgenspalten gibt Probleme

Ich habe einen Pandas DataFramemyDF mit ein paar Streicherspalten (derendtype istobject) und viele numerische Spalten. Ich habe folgendes versucht:

d=pandas.HDFStore("C:\\PF\\Temp.h5")
d['test']=myDF

Ich habe folgendes Ergebnis erhalten:

C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\pandas\io\pytables.py:2446: PerformanceWarning: 

your performance may suffer as PyTables will pickle object types that it cannot
map directly to c-types [inferred_type->mixed,key->block2_values] 
[items->[0, 1, 3, 4, 5, 6, 9, 10, 292, 411, 412, 477, 478, 479, 495, 572, 581, 590, 599, 608, 617, 626, 635]]

  warnings.warn(ws, PerformanceWarning)

Anscheinend tritt das Problem für jede Spalte auf, die eine Zeichenfolge ist. Zum Beispiel, wenn ich es versuche

myDF[0].dtype

Ich bekomme

Out[38]: dtype('O')

Wie kann ich das Problem beheben, d. Hdtype für Zeichenfolgenspalten, damit HDFStore sie wie eine Zeichenfolgenspalte behandeln kann?

* EDIT *

Weitere Infos auf Anfrage

>>> pandas.__version__
Out[49]: '0.13.1'

>>> tables.__version__
Out[53]: '3.1.0'

Aufbau des Pandas-Datenrahmens wie folgt:

pandas.read_csv(fName,sep="|",header=None,low_memory=False)

Wenn ich es versuche

myDF.info()

Ich bekomme

Int64Index: 153895 entries, 0 to 153894
Data columns (total 644 columns):
0      object
1      object
2      int64
3      object
4      object
5      object
6      object
7      int64
8      float64
9      object
10     object
11     float64
12     float64
13     float64
14     float64
...
...
642    float64
643    float64
dtypes: float64(619), int64(2), object(23)

Alle Zeichenfolgenspalten wurden als gelesenobject