Python Pandas: como transformar um DataFrame com “fatores” em uma matriz de design para regressão linear?

Question

Apr 17, 2012, 08:26 PM

Python Pandas: como transformar um DataFrame com “fatores” em uma matriz de design para regressão linear?

Se a memória me servir, em R, há um tipo de dado chamado fator que, quando usado em um DataFrame, pode ser descompactado automaticamente nas colunas necessárias de uma matriz de design de regressão. Por exemplo, um fator contendo valores True / False / Maybe seria transformado em:

<code>1 0 0
0 1 0
or
0 0 1
</code>

com a finalidade de usar código de regressão de nível inferior. Existe uma maneira de conseguir algo semelhante usando a biblioteca pandas? Vejo que há algum suporte de regressão dentro do Pandas, mas como tenho minhas próprias rotinas de regressão customizadas, estou realmente interessado na construção da matriz de design (matriz ou matriz numd de 2d) de dados heterogêneos com suporte para mapeamento de back e fort entre colunas do objeto numpy e o DataFrame do Pandas do qual é derivado.

Update: Aqui está um exemplo de uma matriz de dados com dados heterogêneos do tipo que estou pensando (o exemplo vem do manual do Pandas):

<code>>>> df2 = DataFrame({'a' : ['one', 'one', 'two', 'three', 'two', 'one', 'six'],'b' : ['x', 'y', 'y', 'x', 'y', 'x', 'x'],'c' : np.random.randn(7)})
>>> df2
       a  b         c
0    one  x  0.000343
1    one  y -0.055651
2    two  y  0.249194
3  three  x -1.486462
4    two  y -0.406930
5    one  x -0.223973
6    six  x -0.189001
>>> 
</code>

A coluna 'a' deve ser convertida em 4 colunas de ponto flutuante (apesar do significado, existem apenas quatro átomos exclusivos), a coluna 'b' pode ser convertida em uma única coluna de ponto flutuante, e a coluna 'c' deve ser uma coluna final não modificada na matriz de projeto.

Obrigado,

SetJmp