Подобные изображения - как их сравнить

У меня есть более 1,3 миллиона изображений, которые я должен сравнить друг с другом, и добавляются несколько сотен в день.

Моя компания берет изображение и создает версию, которая может быть использована нашими поставщиками.

Файлы часто очень похожи друг на друга, например, две разные компании могут отправить нам два разных изображения, JPG и GIF, оба с логотипом McDonald, с месяцами между представлениями.

Происходит то, что в конце мы создаем один и тот же логотип в два разных раза, когда мы можем просто скопировать / вставить уже созданный или по крайней мере предложить его в качестве возможной отправной точки для художников.

Я искал алгоритмы для создания отпечатка пальца или чего-то такого, что позволит мне сделать простой запрос при загрузке нового изображения, время относительно не проблема, если на создание отпечатка пальца уходит 1 секунда, это займет 150 дней. создайте отпечатки пальцев, но при сохранении будет очень много, что мы могли бы даже получить 3 или 4 сервера для этого.

Я свободно говорю на PHP, но если алгоритм находится в псевдокоде или даже на C, я могу прочитать его и попытаться перевести (если он не использует некоторые специфичные для C библиотеки)

В настоящее время я делаю MD5 из всех изображений, чтобы поймать те же самые, этот вопрос возник, когда я думал сделать изменение размера изображения и запустить md5 для изображения с измененным размером, чтобы поймать те, которые были сохраненный в другом формате и измененный размер, но тогда я все еще не имел бы достаточно хорошего распознавания.

Если бы я не упомянул об этом, я был бы счастлив с чем-то, что просто предлагает возможный "подобный" изображений.

EDIT

Имейте в виду, что проверку необходимо выполнять несколько раз в минуту, поэтому наилучшее решение - это решение, которое дает мне некоторые значения для каждого изображения, которые я могу сохранить и использовать в будущем для сравнения с изображением, на которое я смотрю, без необходимости пересканируйте весь сервер.

Я читаю некоторые страницы с упоминанием гистограмм или изменяю размер изображения до очень маленького размера, убираю возможные теги и затем преобразую его в оттенки серого, делаю хэш этих файлов и использую его для сравнения. Если мне это удастся, я отправлю код / ответ здесь

Ответы на вопрос(4)

Ваш ответ на вопрос