Python Pandas: jak przekształcić DataFrame z „czynnikami” w macierz projektową dla regresji liniowej?
Jeśli pamięć mi służy, w R istnieje typ danych zwany czynnikiem, który w przypadku użycia w DataFrame może być automatycznie rozpakowany do niezbędnych kolumn macierzy projektu regresji. Na przykład czynnik zawierający wartości True / False / Maybe zostanie przekształcony w:
<code>1 0 0 0 1 0 or 0 0 1 </code>
w celu użycia kodu regresji niższego poziomu. Czy istnieje sposób na osiągnięcie czegoś podobnego za pomocą biblioteki pand? Widzę, że istnieje pewne wsparcie regresji w Pandas, ale ponieważ mam własne, dostosowane procedury regresji, naprawdę interesuje mnie konstrukcja macierzy projektu (2d tablica lub macierz) z heterogenicznych danych z obsługą odwzorowania wstecz i fortu między kolumny obiektu numpy i ramki danych Pandas, z której pochodzi.
Aktualizacja: Oto przykład macierzy danych z heterogenicznymi danymi, o których myślę (przykład pochodzi z podręcznika Pandas):
<code>>>> df2 = DataFrame({'a' : ['one', 'one', 'two', 'three', 'two', 'one', 'six'],'b' : ['x', 'y', 'y', 'x', 'y', 'x', 'x'],'c' : np.random.randn(7)}) >>> df2 a b c 0 one x 0.000343 1 one y -0.055651 2 two y 0.249194 3 three x -1.486462 4 two y -0.406930 5 one x -0.223973 6 six x -0.189001 >>> </code>
Kolumna „a” powinna zostać przekonwertowana na 4 kolumny zmiennoprzecinkowe (pomimo znaczenia, istnieją tylko cztery unikalne atomy), kolumna „b” może zostać przekształcona w pojedynczą kolumnę zmiennoprzecinkową, a kolumna „c” powinna być niezmodyfikowaną kolumną końcową w macierzy projektu.
Dzięki,
SetJmp