Нейронная сеть всегда предсказывает один и тот же класс

Я пытаюсь реализовать нейронную сеть, которая классифицирует изображения в одну из двух отдельных категорий. Проблема, однако, в том, что в настоящее время он всегда предсказывает 0 для любого ввода, и я не совсем уверен, почему.

Вот мой метод извлечения функций:

def extract(file):
    # Resize and subtract mean pixel
    img = cv2.resize(cv2.imread(file), (224, 224)).astype(np.float32)
    img[:, :, 0] -= 103.939
    img[:, :, 1] -= 116.779
    img[:, :, 2] -= 123.68
    # Normalize features
    img = (img.flatten() - np.mean(img)) / np.std(img)

    return np.array([img])

Вот моя процедура градиентного спуска:

def fit(x, y, t1, t2):
    """Training routine"""
    ils = x.shape[1] if len(x.shape) > 1 else 1
    labels = len(set(y))

    if t1 is None or t2 is None:
        t1 = randweights(ils, 10)
        t2 = randweights(10, labels)

    params = np.concatenate([t1.reshape(-1), t2.reshape(-1)])
    res = grad(params, ils, 10, labels, x, y)
    params -= 0.1 * res

    return unpack(params, ils, 10, labels)

Вот мое прямое и обратное (градиентное) распространение:

def forward(x, theta1, theta2):
    """Forward propagation"""

    m = x.shape[0]

    # Forward prop
    a1 = np.vstack((np.ones([1, m]), x.T))
    z2 = np.dot(theta1, a1)

    a2 = np.vstack((np.ones([1, m]), sigmoid(z2)))
    a3 = sigmoid(np.dot(theta2, a2))

    return (a1, a2, a3, z2, m)

def grad(params, ils, hls, labels, x, Y, lmbda=0.01):
    """Compute gradient for hypothesis Theta"""

    theta1, theta2 = unpack(params, ils, hls, labels)

    a1, a2, a3, z2, m = forward(x, theta1, theta2)
    d3 = a3 - Y.T
    print('Current error: {}'.format(np.mean(np.abs(d3))))

    d2 = np.dot(theta2.T, d3) * (np.vstack([np.ones([1, m]), sigmoid_prime(z2)]))
    d3 = d3.T
    d2 = d2[1:, :].T

    t1_grad = np.dot(d2.T, a1.T)
    t2_grad = np.dot(d3.T, a2.T)

    theta1[0] = np.zeros([1, theta1.shape[1]])
    theta2[0] = np.zeros([1, theta2.shape[1]])

    t1_grad = t1_grad + (lmbda / m) * theta1
    t2_grad = t2_grad + (lmbda / m) * theta2

    return np.concatenate([t1_grad.reshape(-1), t2_grad.reshape(-1)])

А вот моя функция прогнозирования:

def predict(theta1, theta2, x):
    """Predict output using learned weights"""
    m = x.shape[0]

    h1 = sigmoid(np.hstack((np.ones([m, 1]), x)).dot(theta1.T))
    h2 = sigmoid(np.hstack((np.ones([m, 1]), h1)).dot(theta2.T))

    return h2.argmax(axis=1)

Я вижу, что частота ошибок постепенно уменьшается с каждой итерацией, обычно сходясь где-то в районе 1.26e-05.

Что я пробовал до сих пор:

PCAРазличные наборы данных (радужная оболочка от sklearn и рукописные числа из курса Coursera ML, с точностью до 95% на обоих). Тем не менее, оба из них были обработаны в пакете, поэтому я могу предположить, что моя общая реализация верна, но что-то не так с тем, как я извлекаю функции, или как я обучаю классификатор.Попробовал SGDClassifier от sklearn, и он не работал намного лучше, давая мне точность ~ 50%. Так что-то не так с функциями, тогда?

редактировать: Средняя выработка h2 выглядит следующим образом:

[0.5004899   0.45264441]
[0.50048522  0.47439413]
[0.50049019  0.46557124]
[0.50049261  0.45297816]

Итак, очень похожие сигмоидные выходы для всех примеров валидации.

Ответы на вопрос(3)

Ваш ответ на вопрос