Изображение и анализ контента, чтобы определить различия между изящной фотографией человека, купальником фотографии, обнаженной фотографией, изображениями порнографии ... насколько я знаю, далеко не достаточно сложного, чтобы сделать в программном обеспечении в одиночку.
К счастью, краудсорсинг должен быть здесь полезен, как предложил @ammoQ в комментарии. Однако я не верю , что члены 4chan или любой другого форума оценил бы огромное количество не являющиеся -порнографических изображений, такие как общие веб - графики для кнопок, рамки, реклама и т.д. будут опубликовано.
Моя рекомендация - изучить существующие краудсорсинговые решения, такие как Amazon Mechanical Turk . (Однако сроки службы могут явно запретить участие порнографического содержания, поэтому посоветуйте вам , возможно , придется найти другое решение или свернуть свой собственный.)
Чтобы сделать краудсорсинг возможным, ваше программное обеспечение должно быть готово выполнить некоторые или все из следующих действий:
- Храните информацию, которая связывает контент с компьютером, с которого он поступил
- Определите точные дубликаты по всему инвентарю и удалите их (но информация о происхождении сохраняется)
- Уменьшите изображение до некоторого размера, возможно, 320x200, что достаточно для идентификации содержимого изображения без сохранения ненужных деталей и неиспользования пространства / полосы пропускания.
- Создавайте неподвижные изображения видеоконтента через определенные промежутки времени и применяйте то же правило понижающей дискретизации
Наконец, база данных уменьшенных изображений, представляющих исходное изображение и видеоконтент, проверяется пользователями (или назначенной командой, если у вас есть ресурсы) в соответствии с кодексом поведения вашей компании. Программа или интерфейс могут отображать одно изображение за раз или экран миниатюр - все, что вы считаете лучшим для получения точной информации.
Идентификационные данные компьютера, с которого поступили изображения, должны быть абсолютно секретными и неизвестными лицам, оценивающим данные. Кроме того, оно должно быть рандомизировано, и каждое изображение, вероятно, проверяется более одного раза, чтобы устранить смещение.
Та же самая техника могла бы использоваться для текста, но сначала контент мог быть оценен ранжированием ключевых слов, который удаляет большую часть текста из обзора краудсорсинга Классификация длинного документа, конечно, займет больше времени, чем классификация изображения.