У меня более 10000 изображений, из которых около 2000 дубликаты в других форматах (как в JPEG, PNG, GIF). Оба эти числа увеличиваются с каждым днем. Мне нужно удалить эти дубликаты, и для этого я должен знать, как их сначала найти.
Моей первой мыслью было проверить пиксели изображений и найти другие изображения, которые имеют одинаковые цветные пиксели в тех же координатах. Но эта опция не всегда работает. Допустим, я ищу дубликат. Что касается объекта поиска, я выбираю 8-битный файл PNG. Он найдет все дубликаты этого изображения, но только 8-битный PNG, иногда 8-битный GIF и редко JPEG (из-за алгоритмических изображений, я полагаю?).
Моя вторая мысль состояла в том, чтобы продублировать все эти изображения и перекрасить их в строгую двухцветную палитру (скажем, черно-белую) и выполнить такое же сканирование, как указано выше. И снова изображение JPEG не на 100% похоже на формат PNG или GIF (по той же причине, что и выше?).
Третья мысль заключалась в том, чтобы уменьшить процентное отношение к тому, насколько изображение должно быть знакомым, и увеличить степень изменения цвета, что приведет к нежелательному удалению изображения ...
Есть предположения?