O método de descida de gradiente e equação normal para resolver a regressão linear fornece diferentes soluções
Estou trabalhando no problema de aprendizado de máquina e quero usar a regressão linear como algoritmo de aprendizado. Eu implementei 2 métodos diferentes para encontrar parâmetrostheta
do modelo de regressão linear: descendente de gradiente (mais inclinado) e equação normal. Nos mesmos dados eles devem dar aproximadamente igualtheta
vetor. No entanto eles não.
Ambostheta
vetores são muito semelhantes em todos os elementos, mas o primeiro. Esse é o usado para multiplicar o vetor de todos os 1 adicionados aos dados.
Aqui está como otheta
s parece (coluna do punho é saída de descida de gradiente, segunda saída da equação normal):
Grad desc Norm eq
-237.7752 -4.6736
-5.8471 -5.8467
9.9174 9.9178
2.1135 2.1134
-1.5001 -1.5003
-37.8558 -37.8505
-1.1024 -1.1116
-19.2969 -19.2956
66.6423 66.6447
297.3666 296.7604
-741.9281 -744.1541
296.4649 296.3494
146.0304 144.4158
-2.9978 -2.9976
-0.8190 -0.8189
O que pode causar a diferençatheta(1, 1)
retornado por descida de gradiente em comparação comtheta(1, 1)
retornou pela equação normal? Eu tenho bug no meu código?
Aqui está a minha implementação da equação normal no Matlab:
function theta = normalEque(X, y)
[m, n] = size(X);
X = [ones(m, 1), X];
theta = pinv(X'*X)*X'*y;
end
Aqui está o código para a descida de gradiente:
function theta = gradientDesc(X, y)
options = optimset('GradObj', 'on', 'MaxIter', 9999);
[theta, ~, ~] = fminunc(@(t)(cost(t, X, y)),...
zeros(size(X, 2), 1), options);
end
function [J, grad] = cost(theta, X, y)
m = size(X, 1);
X = [ones(m, 1), X];
J = sum((X * theta - y) .^ 2) ./ (2*m);
for i = 1:size(theta, 1)
grad(i, 1) = sum((X * theta - y) .* X(:, i)) ./ m;
end
end
Eu passo exatamente os mesmos dadosX
ey
para ambas as funções (eu não normalizoX
).
Com base em respostas e comentários, verifiquei alguns poucos códigos e fiz alguns testes.
Primeiro eu quero verificar se o problema pode ser causado pelo fato de o X ser quase singular como sugerido por@ user1489497's resposta. Então, eu substituí pinv por inv - e quando executá-lo eu realmente tenho avisoMatrix is close to singular or badly scaled.
. Para ter certeza de que esse não é o problema, obtive um conjunto de dados muito maior e executei testes com esse novo conjunto de dados. Desta vezinv(X)
não exibiu o aviso e usandopinv
einv
deu os mesmos resultados. Então eu espero queX
não está mais perto do singular.
Entãoeu mudeinormalEque
código como sugerido porlascas de madeira então agora parece:
function theta = normalEque(X, y)
X = [ones(size(X, 1), 1), X];
theta = pinv(X)*y;
end
No entanto, o problema ainda está lá. NovonormalEque
função em novos dados que não estão perto de singular dá diferentetheta
ComogradientDesc
.
Para descobrir qual algoritmo é buggy, executei o algoritmo de regressão linear do software de mineração de dados Weka nos mesmos dados. Weka calculou theta muito semelhante à saída denormalEque
mas diferente da saída degradientDesc
. Então eu acho quenormalEque
está correto ehá um bug nogradientDesc
.
Aqui está a comparação detheta
s calculado por Weka,normalEque
eGradientDesc
:
Weka(correct) normalEque gradientDesc
779.8229 779.8163 302.7994
1.6571 1.6571 1.7064
1.8430 1.8431 2.3809
-1.5945 -1.5945 -1.5964
3.8190 3.8195 5.7486
-4.8265 -4.8284 -11.1071
-6.9000 -6.9006 -11.8924
-15.6956 -15.6958 -13.5411
43.5561 43.5571 31.5036
-44.5380 -44.5386 -26.5137
0.9935 0.9926 1.2153
-3.1556 -3.1576 -1.8517
-0.1927 -0.1919 -0.6583
2.9207 2.9227 1.5632
1.1713 1.1710 1.1622
0.1091 0.1093 0.0084
1.5768 1.5762 1.6318
-1.3968 -1.3958 -2.1131
0.6966 0.6963 0.5630
0.1990 0.1990 -0.2521
0.4624 0.4624 0.2921
-12.6013 -12.6014 -12.2014
-0.1328 -0.1328 -0.1359
Eu também calculei erros como sugerido porA resposta de Justin Peel. Saída denormalEque
dá um erro quadrado ligeiramente menor, mas a diferença é marginal. O que é maisquando eu calcular gradiente de custo detheta
usando a funçãocost
(o mesmo que o usado porgradientDesc
) Eu tenho gradiente perto de zero. O mesmo feito na saída degradientDesc
não dá gradiente próximo de zero. Aqui está o que eu quero dizer:
>> [J_gd, grad_gd] = cost(theta_gd, X, y, size(X, 1));
>> [J_ne, grad_ne] = cost(theta_ne, X, y, size(X, 1));
>> disp([J_gd, J_ne])
120.9932 119.1469
>> disp([grad_gd, grad_ne])
-0.005172856743846 -0.000000000908598
-0.026126463200876 -0.000000135414602
-0.008365136595272 -0.000000140327001
-0.094516503056041 -0.000000169627717
-0.028805977931093 -0.000000045136985
-0.004761477661464 -0.000000005065103
-0.007389474786628 -0.000000005010731
0.065544198835505 -0.000000046847073
0.044205371015018 -0.000000046169012
0.089237705611538 -0.000000046081288
-0.042549228192766 -0.000000051458654
0.016339232547159 -0.000000037654965
-0.043200042729041 -0.000000051748545
0.013669010209370 -0.000000037399261
-0.036586854750176 -0.000000027931617
-0.004761447097231 -0.000000027168798
0.017311225027280 -0.000000039099380
0.005650124339593 -0.000000037005759
0.016225097484138 -0.000000039060168
-0.009176443862037 -0.000000012831350
0.055653840638386 -0.000000020855391
-0.002834810081935 -0.000000006540702
0.002794661393905 -0.000000032878097
Isto sugeriria que a descida de gradiente simplesmente não convergiu para o mínimo global ... Mas isso dificilmente é o caso enquanto eu o executo por milhares de iterações.Então, onde está o bug?