Transferência de aprendizado Por que remover a última camada oculta?

Freqüentemente, ao ler blogs sobre transferência de aprendizado, diz - remova a última camada ou remova as duas últimas. Ou seja, remova a camada de saída e a última camada oculta.

Portanto, se o aprendizado de transferência implica alterar também a função de custo, por exemplo, da entropia cruzada ao erro quadrático médio, entendo que você precisa alterar a última camada de saída de 1001 camada de valores de softmax para uma camada Densa (1) que gera uma flutuação, mas:

por que também mudar a última camada oculta?com que pesos as duas últimas novas camadas são inicializadas se estiver usando o Keras e um dos modelos CNN predefinidos com pesos da imagenet? Ele inicializou ou 0 inicializou?

questionAnswers(2)

yourAnswerToTheQuestion