O método de descida de gradiente e equação normal para resolver a regressão linear fornece diferentes soluções

Estou trabalhando no problema de aprendizado de máquina e quero usar a regressão linear como algoritmo de aprendizado. Eu implementei 2 métodos diferentes para encontrar parâmetrostheta do modelo de regressão linear: descendente de gradiente (mais inclinado) e equação normal. Nos mesmos dados eles devem dar aproximadamente igualtheta vetor. No entanto eles não.

Ambostheta vetores são muito semelhantes em todos os elementos, mas o primeiro. Esse é o usado para multiplicar o vetor de todos os 1 adicionados aos dados.

Aqui está como othetas parece (coluna do punho é saída de descida de gradiente, segunda saída da equação normal):

Grad desc Norm eq
-237.7752 -4.6736
-5.8471   -5.8467
9.9174    9.9178
2.1135    2.1134
-1.5001   -1.5003
-37.8558  -37.8505
-1.1024   -1.1116
-19.2969  -19.2956
66.6423   66.6447
297.3666  296.7604
-741.9281 -744.1541
296.4649  296.3494
146.0304  144.4158
-2.9978   -2.9976
-0.8190   -0.8189

O que pode causar a diferençatheta(1, 1) retornado por descida de gradiente em comparação comtheta(1, 1) retornou pela equação normal? Eu tenho bug no meu código?

Aqui está a minha implementação da equação normal no Matlab:

function theta = normalEque(X, y)
    [m, n] = size(X);
    X = [ones(m, 1), X];
    theta = pinv(X'*X)*X'*y;
end

Aqui está o código para a descida de gradiente:

function theta = gradientDesc(X, y)
    options = optimset('GradObj', 'on', 'MaxIter',  9999);
    [theta, ~, ~] = fminunc(@(t)(cost(t, X, y)),...
                    zeros(size(X, 2), 1), options);
end

function [J, grad] = cost(theta, X, y)
    m = size(X, 1);
    X = [ones(m, 1), X];
    J = sum((X * theta - y) .^ 2) ./ (2*m);
    for i = 1:size(theta, 1)
        grad(i, 1) = sum((X * theta - y) .* X(:, i)) ./ m;
    end
end

Eu passo exatamente os mesmos dadosX ey para ambas as funções (eu não normalizoX).

Editar 1:

Com base em respostas e comentários, verifiquei alguns poucos códigos e fiz alguns testes.

Primeiro eu quero verificar se o problema pode ser causado pelo fato de o X ser quase singular como sugerido por@ user1489497's resposta. Então, eu substituí pinv por inv - e quando executá-lo eu realmente tenho avisoMatrix is close to singular or badly scaled.. Para ter certeza de que esse não é o problema, obtive um conjunto de dados muito maior e executei testes com esse novo conjunto de dados. Desta vezinv(X) não exibiu o aviso e usandopinv einv deu os mesmos resultados. Então eu espero queX não está mais perto do singular.

Entãoeu mudeinormalEque código como sugerido porlascas de madeira então agora parece:

function theta = normalEque(X, y)
    X = [ones(size(X, 1), 1), X];
    theta = pinv(X)*y;
end

No entanto, o problema ainda está lá. NovonormalEque função em novos dados que não estão perto de singular dá diferentetheta ComogradientDesc.

Para descobrir qual algoritmo é buggy, executei o algoritmo de regressão linear do software de mineração de dados Weka nos mesmos dados. Weka calculou theta muito semelhante à saída denormalEque mas diferente da saída degradientDesc. Então eu acho quenormalEque está correto ehá um bug nogradientDesc.

Aqui está a comparação dethetas calculado por Weka,normalEque eGradientDesc:

Weka(correct) normalEque    gradientDesc
779.8229      779.8163      302.7994
  1.6571        1.6571        1.7064
  1.8430        1.8431        2.3809
 -1.5945       -1.5945       -1.5964
  3.8190        3.8195        5.7486
 -4.8265       -4.8284      -11.1071
 -6.9000       -6.9006      -11.8924
-15.6956      -15.6958      -13.5411
 43.5561       43.5571       31.5036
-44.5380      -44.5386      -26.5137
  0.9935        0.9926        1.2153
 -3.1556       -3.1576       -1.8517
 -0.1927       -0.1919       -0.6583
  2.9207        2.9227        1.5632
  1.1713        1.1710        1.1622
  0.1091        0.1093        0.0084
  1.5768        1.5762        1.6318
 -1.3968       -1.3958       -2.1131
  0.6966        0.6963        0.5630
  0.1990        0.1990       -0.2521
  0.4624        0.4624        0.2921
-12.6013      -12.6014      -12.2014
 -0.1328       -0.1328       -0.1359

Eu também calculei erros como sugerido porA resposta de Justin Peel. Saída denormalEque dá um erro quadrado ligeiramente menor, mas a diferença é marginal. O que é maisquando eu calcular gradiente de custo detheta usando a funçãocost (o mesmo que o usado porgradientDesc) Eu tenho gradiente perto de zero. O mesmo feito na saída degradientDesc não dá gradiente próximo de zero. Aqui está o que eu quero dizer:

>> [J_gd, grad_gd] = cost(theta_gd, X, y, size(X, 1));
>> [J_ne, grad_ne] = cost(theta_ne, X, y, size(X, 1));
>> disp([J_gd, J_ne])
  120.9932  119.1469
>> disp([grad_gd, grad_ne])
  -0.005172856743846  -0.000000000908598
  -0.026126463200876  -0.000000135414602
  -0.008365136595272  -0.000000140327001
  -0.094516503056041  -0.000000169627717
  -0.028805977931093  -0.000000045136985
  -0.004761477661464  -0.000000005065103
  -0.007389474786628  -0.000000005010731
   0.065544198835505  -0.000000046847073
   0.044205371015018  -0.000000046169012
   0.089237705611538  -0.000000046081288
  -0.042549228192766  -0.000000051458654
   0.016339232547159  -0.000000037654965
  -0.043200042729041  -0.000000051748545
   0.013669010209370  -0.000000037399261
  -0.036586854750176  -0.000000027931617
  -0.004761447097231  -0.000000027168798
   0.017311225027280  -0.000000039099380
   0.005650124339593  -0.000000037005759
   0.016225097484138  -0.000000039060168
  -0.009176443862037  -0.000000012831350
   0.055653840638386  -0.000000020855391
  -0.002834810081935  -0.000000006540702
   0.002794661393905  -0.000000032878097

Isto sugeriria que a descida de gradiente simplesmente não convergiu para o mínimo global ... Mas isso dificilmente é o caso enquanto eu o executo por milhares de iterações.Então, onde está o bug?

questionAnswers(4)

yourAnswerToTheQuestion