Верна ли моя реализация стохастического градиентного спуска?

Question

Jan 25, 2014, 02:56 PM

logistic-regression machine-learning gradient-descent matlab

Верна ли моя реализация стохастического градиентного спуска?

Я пытаюсь развить стохастический градиентный спуск, но я нене знаю, правильно ли это на 100%.

Стоимость, сгенерированная моим алгоритмом стохастического градиентного спуска, иногда очень далека от стоимости, сгенерированной FMINUC или пакетным градиентным спуском.в то время как стоимость спуска по пакетному градиенту сходится, когда я устанавливаю альфа-скорость обучения 0,2, я вынужден устанавливать альфа-скорость обучения 0,0001 для моей стохастической реализации, чтобы она не расходилась. Это нормально?

Вот некоторые результаты, которые я получил с тренировочным набором из 10 000 элементов и num_iter = 100 или 500

    FMINUC : 
    Iteration  #100 | Cost: 5.147056e-001

    BACTH GRADIENT DESCENT  500 ITER
    Iteration #500 - Cost = 5.535241e-001

    STOCHASTIC GRADIENT DESCENT 100 ITER
    Iteration #100 - Cost = 5.683117e-001  % First time I launched
    Iteration #100 - Cost = 7.047196e-001  % Second time I launched

Реализация градиентного спуска для логистической регрессии

J_history = zeros(num_iters, 1); 

for iter = 1:num_iters 

    [J, gradJ] = lrCostFunction(theta, X, y, lambda);
    theta = theta - alpha * gradJ;
    J_history(iter) = J;

    fprintf('Iteration #%d - Cost = %d... \r\n',iter, J_history(iter));
end

Реализация стохастического градиентного спуска для логистической регрессии

% number of training examples
m = length(y);

% STEP1 : we shuffle the data
data = [y, X];
data = data(randperm(size(data,1)),:);
y = data(:,1);
X = data(:,2:end);

for iter = 1:num_iters 

     for i = 1:m
        x = X(i,:); % Select one example
        [J, gradJ] = lrCostFunction(theta, x, y(i,:), lambda);
        theta = theta - alpha * gradJ;
     end

     J_history(iter) = J;
     fprintf('Iteration #%d - Cost = %d... \r\n',iter, J);

end

Для справки, вот функция логистической регрессии, использованная в моем примере.

function [J, grad] = lrCostFunction(theta, X, y, lambda)

m = length(y); % number of training examples

% We calculate J    
hypothesis = sigmoid(X*theta); 
costFun = (-y.*log(hypothesis) - (1-y).*log(1-hypothesis));    
J = (1/m) * sum(costFun) + (lambda/(2*m))*sum(theta(2:length(theta)).^2);

% We calculate grad using the partial derivatives
beta = (hypothesis-y); 
grad = (1/m)*(X'*beta);
temp = theta;  
temp(1) = 0;   % because we don't add anything for j = 0  
grad = grad + (lambda/m)*temp; 
grad = grad(:);

end

Верна ли моя реализация стохастического градиентного спуска?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Верна ли моя реализация стохастического градиентного спуска?

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы