Определить область визуального внимания на изображении

9

Я пытаюсь определить область визуального внимания на данном изображении и обрезать изображение в этой области. Например, учитывая изображение любого размера и прямоугольник, скажем, размера LxW в качестве входных данных, я хотел бы обрезать изображение до наиболее важной области визуального внимания. Я ищу современный подход к этому.

У нас есть какие-нибудь инструменты или SDK для этого? Любой кусок кода или алгоритма действительно поможет.

— Тина Дж
источник

Кстати, внутри «одного» объекта я бы хотел привлечь внимание. Таким образом, обнаружение объекта может быть не самым лучшим.

— Тина Дж

Вы ищете подходы на основе глубокого обучения или классические подходы к обработке изображений?

— Varsh

Любой из них, который будет работать лучше. Глубокое обучение может быть лучшим выбором.

— Тина Дж

2

Вы можете искать следующие названия бумаги:

Глубокая многоуровневая сеть для прогнозирования значимости.
Помимо универсальной значимости: персонализированное прогнозирование значимости с многозадачностью CNN.

Вы можете кодировать на python, используя платформу Pytorch.

— Varsh
источник

0

«Внимание» в нейронной сети (визуальная) - это область изображения, где сеть может найти наибольшее количество функций для ее классификации с высокой степенью достоверности. На основании вашего описания вы говорите о «мягком внимании».

У нас есть какие-нибудь инструменты или SDK для этого? я не думаю, что есть готовые SDK. Намного лучше тренировать модель в вашем наборе данных с вниманием. Когда ваша базовая модель готова, к ней легко добавить механизм внимания. Я предлагаю вам проверить https://arxiv.org/pdf/1502.03044.pdf .

— riemann77
источник

0

Чтобы компьютер обнаружил и поставил ограничивающую рамку или круг вокруг области визуального внимания на изображении, необходимо определить основу для внимания. Затем может быть выбран способ заставить компьютерную систему делать выбор на основе этого. Обо всем по порядку.

Это лицо, тело или игровой персонаж, который должен быть объектом интереса? Это будет самый динамичный объект в кадре с точки зрения движения? Если это человек, всегда ли это один и тот же человек? В любом случае, будет ли их лицо выставлено под углом камеры? Есть только кадры или изображения будут кадрами в фильме?

Как только вы узнаете, как ВЫ отличаете объект, требующий внимания, от других объектов и фона, вы можете начать видеть, как компьютер может имитировать это распознавание. При обучении глубокой сети, которая включает в себя ядра свертки (называемые CNN или сверточная нейронная сеть) и, возможно, ячейки с кратковременной памятью (LSTM), существуют этапы распознавания.

Обычно края вещей обнаруживаются первыми. В фильмах движение краев отслеживается как особенности изображения. Элементы на изображении, которые определяют, к какому типу объектов относятся объекты, являются вторыми. Например, игрушка может быть обнаружена по тому, как пластик отражает свет, а также по цветам и формам, характерным для игрушек. Лицо может быть сначала распознано, идентифицируя глаза, нос, рот, подбородок и уши.

После идентификации частей можно идентифицировать целые объекты на другом этапе извлечения элементов. Системы видения следуют тем же основным принципам распознавания, которые использует наша зрительная система человека.

Существует много структур и библиотек, которые могут помочь с этими задачами, но для их использования важно получить общую картину процесса и уточнить, что именно выделяет важные объекты из других объектов, которые могут быть похожими или совершенно другой, так что внимание может быть сосредоточено так, как вы хотите.

Когда у вас есть $(h_{min}, v_{min}); (h_{max}, v_{max})$ координаты двух углов вашей операции кадрирования, которые были бы целью вашей сетевой тренировки, тогда любая библиотека манипулирования изображениями могла бы обрабатывать кадрирование.

Это состояние искусства. Нет высокоуровневого SDK, который позволял бы дать команду компьютеру найти самый важный элемент в кадре без какого-либо разъяснения того, что подразумевается под этим, и обучающих операций, чтобы научить программное обеспечение находить то, что вы решили сделать важным, на основе некоторые критерии. Во всяком случае, пока.

— Дуглас Дасеко
источник