Cálculo da porcentagem de sobreposição da caixa delimitadora, para avaliação do detector de imagem

Ao testar um algoritmo de detecção de objeto em imagens grandes, verificamos nossas caixas delimitadoras contra as coordenadas fornecidas para os retângulos de verdade do solo.

De acordo com os desafios de VOC de Pascal, existe o seguinte:

Uma caixa delimitadora prevista é considerada correta se sobrepuser mais de 50% a uma caixa delimitadora de base verdadeira, caso contrário, a caixa delimitadora é considerada uma detecção de falso positivo. Detecções múltiplas são penalizadas. Se um sistema predizer várias caixas delimitadoras que se sobrepõem a uma única caixa delimitadora de verdade de base, apenas uma previsão é considerada correta, as outras são consideradas falsos positivos.

Isso significa que precisamos calcular a porcentagem de sobreposição. Isso significa que a caixa de verificação do solo é 50% coberta pela caixa de limite detectada? Ou que 50% da caixa delimitadora é absorvida pela caixa da verdade do solo?

Eu procurei, mas não encontrei um algoritmo padrão para isso - o que é surpreendente, porque eu pensaria que isso é algo bastante comum na visão por computador. (Eu sou novo nisso). Eu perdi isso? Alguém sabe qual é o algoritmo padrão para esse tipo de problema?