@HAr: Для горячего кодирования истинной метки нам нужен только один ненулевой класс. Однако перекрестная энтропия может сравнивать любые два распределения вероятностей; не обязательно, чтобы у одного из них были горячие вероятности.

ю, что есть много объяснений того, чтоcross-entropy есть, но я все еще в замешательстве.

Это только метод для описания функции потерь? Затем мы можем использовать, например, алгоритм градиентного спуска, чтобы найти минимум. Или весь процесс включает в себя также поиск минимального алгоритма?

Ответы на вопрос(1)

Ваш ответ на вопрос