¿Por qué motivo Convolution 1x1 se utiliza en redes neuronales profundas?

Estoy mirando la arquitectura InceptionV3 (GoogLeNet) y no puedo entender por qué necesitamos capas conv1x1.

Sé cómo funciona la convolución, pero veo una ganancia con un tamaño de parche> 1.