Resultados da pesquisa a pedido "gradient-descent"

1 a resposta

Como interpretar o caffe log com debug_info?

Ao enfrentar dificuldades durante o treinamento (nans [https://stackoverflow.com/a/33980220/1714410], perda não converge [https://stackoverflow.com/q/41234297/1714410]etc.) às vezes é útil olhar para um registro de treinamento mais detalhado, ...

2 a resposta

A função de custo na regressão logística fornece NaN como resultado

Estou implementando regressão logística usando descida de gradiente em lote. Existem duas classes nas quais as amostras de entrada devem ser classificadas. As aulas são 1 e 0. Ao treinar os dados, estou usando a seguinte função sigmóide: t = 1 ...

4 a resposta

Causas comuns de nans durante o treinamento

Notei que uma ocorrência frequente durante o treinamento éNANestá sendo introduzido. Muitas vezes, parece ser introduzido por pesos nas camadas internas do produto / totalmente conectadas ou de convolução. Isso está ocorrendo porque o cálculo ...

3 a resposta

A rede neural sempre prediz a mesma classe

Estou tentando implementar uma rede neural que classifique imagens em uma das duas categorias distintas. O problema é, no entanto, que atualmente sempre prevê 0 para qualquer entrada e não sei ao certo por quê. Aqui está o meu método de extração ...

1 a resposta

Sklearn SGDClassifier ajuste parcial

Estou tentando usar o SGD para classificar um grande conjunto de dados. Como os dados são grandes demais para caber na memória, eu gostaria de usar oparcial_fit método para treinar o classificador. Selecionei uma amostra do conjunto de ...

4 a resposta

Por que os pesos das redes neurais devem ser inicializados em números aleatórios?

1 a resposta

Seleção do tamanho do mini lote para regressão de rede neural

Estou fazendo uma regressão de rede neural com 4 recursos. Como determino o tamanho do mini lote para o meu problema? Vejo pessoas usarem tamanho de lote de 100 a 1000 para visão computacional, com recursos de 32 * 32 * 3 para cada imagem, isso ...

2 a resposta

Alvo de treinamento da função de custo versus objetivo desejado da precisão

Quando treinamos redes neurais, normalmente usamos descida em gradiente, que depende de uma função de custo real e diferenciada contínua e diferenciada. A função de custo final pode, por exemplo, levar o erro médio quadrático. Ou, dito de outra ...

1 a resposta

Como alternar operações de trem no fluxo tensor?

Estou implementando um esquema de treinamento alternado. O gráfico contém duas operações de treinamento. O treinamento deve alternar entre estes. Isso é relevante para pesquisas comoesta [https://arxiv.org/abs/1611.08408]ou esta ...

1 a resposta

Caffe: o que acontecerá se duas camadas suportarem gradientes no mesmo blob inferior?

Gostaria de saber se eu tenho uma camada gerando um blob inferior que é ainda mais consumido por duas camadas subseqüentes, as quais geram alguns gradientes para preencher bottom.diff no estágio de propagação traseira. Os dois gradientes serão ...