Usando o scikit-learn (sklearn), como lidar com dados ausentes para regressão linear?
Eu tentei isso, mas não consegui fazê-lo funcionar nos meus dados:Use o Scikit Learn para fazer regressão linear em um quadro de dados de pandas de séries temporais
Meus dados consistem em 2 DataFrames.DataFrame_1.shape = (40,5000)
eDataFrame_2.shape = (40,74)
. Estou tentando fazer algum tipo de regressão linear, masDataFrame_2
contémNaN
valores de dados ausentes. Quando euDataFrame_2.dropna(how="any")
a forma cai para(2,74)
.
Existe algum algoritmo de regressão linear no sklearn que possa manipularNaN
valores?
Estou modelando depois doload_boston
desklearn.datasets
OndeX,y = boston.data, boston.target = (506,13),(506,)
Aqui está o meu código simplificado:
X = DataFrame_1
for col in DataFrame_2.columns:
y = DataFrame_2[col]
model = LinearRegression()
model.fit(X,y)
#ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
Eu fiz o formato acima para obter as formas para combinar com as matrizes
Se publicar oDataFrame_2
ajudaria, por favor, comente abaixo e eu vou adicioná-lo.