Градиент в непрерывной регрессии с использованием нейронной сети

Я пытаюсь реализовать регрессию NN, которая имеет 3 слоя (1 входной, 1 скрытый и 1 выходной слой с непрерывным результатом). За основу я взял классификацию NN изcoursera.org класс, но изменил функцию стоимости и вычисление градиента, чтобы соответствовать задаче регрессии (а не классификации):

Моя nnCostFunction сейчас:

function [J grad] = nnCostFunctionLinear(nn_params, ...
                                   input_layer_size, ...
                                   hidden_layer_size, ...
                                   num_labels, ...
                                   X, y, lambda)

Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), ...
                 hidden_layer_size, (input_layer_size + 1));

Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), ...
                 num_labels, (hidden_layer_size + 1));

m = size(X, 1);

a1 = X;
a1 = [ones(m, 1) a1];
a2 = a1 * Theta1';
a2 = [ones(m, 1) a2];
a3 = a2 * Theta2';
Y = y;

J = 1/(2*m)*sum(sum((a3 - Y).^2))

th1 = Theta1;
th1(:,1) = 0; %set bias = 0 in reg. formula
th2 = Theta2;
th2(:,1) = 0;

t1 = th1.^2;
t2 = th2.^2;
th = sum(sum(t1)) + sum(sum(t2));
th = lambda * th / (2*m);
J = J + th; %regularization


del_3 = a3 - Y;
t1 = del_3'*a2;
Theta2_grad = 2*(t1)/m + lambda*th2/m;

t1 = del_3 * Theta2;
del_2 = t1 .*  a2;
del_2 = del_2(:,2:end);
t1 = del_2'*a1;
Theta1_grad = 2*(t1)/m + lambda*th1/m;

grad = [Theta1_grad(:) ; Theta2_grad(:)];
end

Затем я использую эту функцию вfmincg алгоритм, но в первых итерациях fmincg завершить его 'с работой. Я думаю, что мой градиент не так, но я могуне могу найти ошибку.

Кто-нибудь может помочь?

Ответы на вопрос(3)

Ваш ответ на вопрос