Realizar entrenamiento multiescala (yolov2)

Me pregunto cómo es el entrenamiento multiescala enYOLOv2 trabajos.

En el documento, se afirma que:

El YOLO original usa una resolución de entrada de 448 × 448. Con la adición de cuadros de ancla, cambiamos la resolución a 416 × 416. Sin embargo,Dado que nuestro modelo solo usa capas convolucionales y de agrupación, puede cambiar su tamaño sobre la marcha. Queremos que YOLOv2 sea robusto para ejecutarse en imágenes de diferentes tamaños, así que entrenamos esto en el modelo. En lugar de arreglar el tamaño de la imagen de entrada, cambiamos la red cada pocas iteraciones. Cada 10 lotes, nuestra red elige aleatoriamente un nuevo tamaño de dimensión de imagen. "Dado que nuestro modelo disminuye las muestras en un factor de 32, extraemos los siguientes múltiplos de 32: {320, 352, ..., 608}. Por lo tanto, la opción más pequeña es 320 × 320 y la más grande es 608 × 608. Cambiamos el tamaño la red a esa dimensión y seguir entrenando ".

No entiendo como una redcon solo capas convolucionales y de agrupación Permitir la entrada de diferentes resoluciones. Según mi experiencia en la construcción de redes neuronales, si cambia la resolución de la entrada a una escala diferente, el número de parámetros de esta red cambiará, es decir, la estructura de esta red cambiará.

Entonces, ¿cómo cambia esto YOLOv2?sobre la marcha?

Leí el archivo de configuración para yolov2, pero todo lo que obtuve fue unrandom=1 declaración...

Respuestas a la pregunta(2)

Su respuesta a la pregunta