¿Cómo puedo detectar y localizar objetos usando tensorflow y red neuronal convolucional?

Mi enunciado del problema es el siguiente:

" Detección y localización de objetos usando Tensorflow y red neuronal convolucional "

Lo que hice ?

Terminé con la detección de gatos a partir de imágenes usando la biblioteca tflearn. Entrené con éxito un modelo con 25000 imágenes de gatos y funciona bien con buena precisión.

Resultado actual:

¿Qué quería hacer?

Si mi imagen consta de dos o más de dos objetos en la misma imagen, por ejemplo, gato y perro juntos, entonces mi resultado debería ser 'gato y perro' y, aparte de esto, tengo que encontrar ellocalización exacta de estos dos objetos en la imagen (cuadro delimitador)

Encontré muchas bibliotecas de alto nivel comodarknet , SSD pero no es capaz de entender el concepto.

Guíeme sobre el enfoque para resolver el problema.

Nota: estoy usandoaprendizaje supervisado técnicas

Resultado Esperado :

Respuestas a la pregunta(2)

Su respuesta a la pregunta