Realizar treinamento em várias escalas (yolov2)

Gostaria de saber como o treinamento multi-escalaYOLOv2 trabalho.

No artigo, afirma-se que:

O YOLO original usa uma resolução de entrada de 448 × 448. Com a adição de caixas de ancoragem, alteramos a resolução para 416 × 416. Contudo,como nosso modelo usa apenas camadas convolucionais e de pool, ele pode ser redimensionado em tempo real. Queremos que o YOLOv2 seja robusto para executar imagens de tamanhos diferentes, para que possamos treiná-lo no modelo. Em vez de fixar o tamanho da imagem de entrada, alteramos a rede a cada poucas iterações. A cada 10 lotes, nossa rede escolhe aleatoriamente um novo tamanho de dimensão da imagem. "Como nosso modelo reduz a amostragem por um fator de 32, obtemos os seguintes múltiplos de 32: {320, 352, ..., 608}. Portanto, a menor opção é 320 × 320 e a maior é 608 × 608. Redimensionamos a rede para essa dimensão e continue treinando ".

Eu não entendo como uma redecom apenas camadas convolucionais e de pool permite a entrada de diferentes resoluções. Da minha experiência na construção de redes neurais, se você alterar a resolução da entrada para uma escala diferente, o número de parâmetros dessa rede mudará, ou seja, a estrutura dessa rede mudará.

Então, como o YOLOv2 muda issono vôo?

Eu li o arquivo de configuração do yolov2, mas tudo o que consegui foi umrandom=1 declaração...

questionAnswers(2)

yourAnswerToTheQuestion