Como o uso da operação im2col em redes convolucionais é mais eficiente?

Estou tentando implementar uma rede neural convolucional e não entendo por que usar a operação im2col é mais eficiente. Ele basicamente armazena a entrada a ser multiplicada pelo filtro em colunas separadas. Mas por que os loops não devem ser usados diretamente para calcular a convolução em vez de executar o im2col pela primeira vez?

questionAnswers(1)

yourAnswerToTheQuestion