Чтобы компьютер обнаружил и поставил ограничивающую рамку или круг вокруг области визуального внимания на изображении, необходимо определить основу для внимания. Затем может быть выбран способ заставить компьютерную систему делать выбор на основе этого. Обо всем по порядку.
Это лицо, тело или игровой персонаж, который должен быть объектом интереса? Это будет самый динамичный объект в кадре с точки зрения движения? Если это человек, всегда ли это один и тот же человек? В любом случае, будет ли их лицо выставлено под углом камеры? Есть только кадры или изображения будут кадрами в фильме?
Как только вы узнаете, как ВЫ отличаете объект, требующий внимания, от других объектов и фона, вы можете начать видеть, как компьютер может имитировать это распознавание. При обучении глубокой сети, которая включает в себя ядра свертки (называемые CNN или сверточная нейронная сеть) и, возможно, ячейки с кратковременной памятью (LSTM), существуют этапы распознавания.
Обычно края вещей обнаруживаются первыми. В фильмах движение краев отслеживается как особенности изображения. Элементы на изображении, которые определяют, к какому типу объектов относятся объекты, являются вторыми. Например, игрушка может быть обнаружена по тому, как пластик отражает свет, а также по цветам и формам, характерным для игрушек. Лицо может быть сначала распознано, идентифицируя глаза, нос, рот, подбородок и уши.
После идентификации частей можно идентифицировать целые объекты на другом этапе извлечения элементов. Системы видения следуют тем же основным принципам распознавания, которые использует наша зрительная система человека.
Существует много структур и библиотек, которые могут помочь с этими задачами, но для их использования важно получить общую картину процесса и уточнить, что именно выделяет важные объекты из других объектов, которые могут быть похожими или совершенно другой, так что внимание может быть сосредоточено так, как вы хотите.
Когда у вас есть (часм я н,vм я н) ; (часм а х,vм а х)координаты двух углов вашей операции кадрирования, которые были бы целью вашей сетевой тренировки, тогда любая библиотека манипулирования изображениями могла бы обрабатывать кадрирование.
Это состояние искусства. Нет высокоуровневого SDK, который позволял бы дать команду компьютеру найти самый важный элемент в кадре без какого-либо разъяснения того, что подразумевается под этим, и обучающих операций, чтобы научить программное обеспечение находить то, что вы решили сделать важным, на основе некоторые критерии. Во всяком случае, пока.