Python Pandas: jak przekształcić DataFrame z „czynnikami” w macierz projektową dla regresji liniowej?

Question

Apr 17, 2012, 08:26 PM

Python Pandas: jak przekształcić DataFrame z „czynnikami” w macierz projektową dla regresji liniowej?

Jeśli pamięć mi służy, w R istnieje typ danych zwany czynnikiem, który w przypadku użycia w DataFrame może być automatycznie rozpakowany do niezbędnych kolumn macierzy projektu regresji. Na przykład czynnik zawierający wartości True / False / Maybe zostanie przekształcony w:

<code>1 0 0
0 1 0
or
0 0 1
</code>

w celu użycia kodu regresji niższego poziomu. Czy istnieje sposób na osiągnięcie czegoś podobnego za pomocą biblioteki pand? Widzę, że istnieje pewne wsparcie regresji w Pandas, ale ponieważ mam własne, dostosowane procedury regresji, naprawdę interesuje mnie konstrukcja macierzy projektu (2d tablica lub macierz) z heterogenicznych danych z obsługą odwzorowania wstecz i fortu między kolumny obiektu numpy i ramki danych Pandas, z której pochodzi.

Aktualizacja: Oto przykład macierzy danych z heterogenicznymi danymi, o których myślę (przykład pochodzi z podręcznika Pandas):

<code>>>> df2 = DataFrame({'a' : ['one', 'one', 'two', 'three', 'two', 'one', 'six'],'b' : ['x', 'y', 'y', 'x', 'y', 'x', 'x'],'c' : np.random.randn(7)})
>>> df2
       a  b         c
0    one  x  0.000343
1    one  y -0.055651
2    two  y  0.249194
3  three  x -1.486462
4    two  y -0.406930
5    one  x -0.223973
6    six  x -0.189001
>>> 
</code>

Kolumna „a” powinna zostać przekonwertowana na 4 kolumny zmiennoprzecinkowe (pomimo znaczenia, istnieją tylko cztery unikalne atomy), kolumna „b” może zostać przekształcona w pojedynczą kolumnę zmiennoprzecinkową, a kolumna „c” powinna być niezmodyfikowaną kolumną końcową w macierzy projektu.

Dzięki,

SetJmp