Usando o scikit-learn (sklearn), como lidar com dados ausentes para regressão linear?

Question

Oct 14, 2015, 12:53 AM

machine-learning pandas linear-regression scikit-learn python

Usando o scikit-learn (sklearn), como lidar com dados ausentes para regressão linear?

Eu tentei isso, mas não consegui fazê-lo funcionar nos meus dados:Use o Scikit Learn para fazer regressão linear em um quadro de dados de pandas de séries temporais

Meus dados consistem em 2 DataFrames.DataFrame_1.shape = (40,5000) eDataFrame_2.shape = (40,74). Estou tentando fazer algum tipo de regressão linear, masDataFrame_2 contémNaN valores de dados ausentes. Quando euDataFrame_2.dropna(how="any") a forma cai para(2,74).

Existe algum algoritmo de regressão linear no sklearn que possa manipularNaN valores?

Estou modelando depois doload_boston desklearn.datasets OndeX,y = boston.data, boston.target = (506,13),(506,)

Aqui está o meu código simplificado:

X = DataFrame_1
for col in DataFrame_2.columns:
    y = DataFrame_2[col]
    model = LinearRegression()
    model.fit(X,y)

#ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

Eu fiz o formato acima para obter as formas para combinar com as matrizes

Se publicar oDataFrame_2 ajudaria, por favor, comente abaixo e eu vou adicioná-lo.