O que é entropia cruzada?

Eu sei que existem muitas explicações sobre o quecross-entropy é, mas ainda estou confuso.

É apenas um método para descrever a função de perda? Em seguida, podemos usar, por exemplo, o algoritmo de descida de gradiente para encontrar o mínimo. Ou é todo o processo que envolve também encontrar o algoritmo mínimo?