Como posso detectar e localizar objetos usando o fluxo tensor e a rede neural convolucional?

Minha declaração do problema é a seguinte:

" Detecção e localização de objetos usando Tensorflow e rede neural convolucional "

O que eu fiz ?

A partir de agora, você terá acesso a todas as informações necessárias sobre o processo de compra e venda, além de informações sobre os produtos e serviços oferecidos.

Resultado Atual:

O que eu queria fazer?

Se minha imagem consiste em dois ou mais de dois objetos na mesma imagem, por exemplo, gato e cachorro juntos, então meu resultado deve ser 'gato e cachorro' e, além disso, tenho que encontrar olocalização exata desses dois objetos na imagem (caixa delimitadora)

Me deparei com muitas bibliotecas de alto nível comodarknet , SSD mas não é capaz de entender o conceito por trás disso.

Por favor, me guie sobre a abordagem para resolver o problema.

Nota: estou usandoaprendizado supervisionado técnicas.

resultado esperado :

questionAnswers(2)

yourAnswerToTheQuestion