Хорошие возможности / алгоритмы распознавания моделей автомобилей в изображениях


9

У меня вопрос по распознаванию объектов, особенно по распознаванию моделей автомобилей! Я в начале работы по определению одной и той же модели автомобиля на разных изображениях. На данный момент я думаю, что одним из лучших алгоритмов для распознавания 3D-объектов является SIFT, но после небольшого перебора демонстрационной реализации у меня возникло странное ощущение, что у этого алгоритма есть некоторые проблемы с блестящими металлическими объектами, такими как автомобили, особенно если они имеют разные цвета.

Кто-нибудь знает какую-то работу в этой области в целом, какой-нибудь подходящий алгоритм для задачи поиска одной и той же модели автомобиля на разных изображениях?

Заранее спасибо за помощь!


2
Можете ли вы опубликовать несколько примеров изображений?
эндолит

Конечно. Изображения для создания моделей автомобилей ;-) могут быть похожи на: s5 coupe training 1 или s5 coupe training 2, но также и «нормальные» картинки. Запрос изображений может быть как запрос S5 купе 1 надеюсь, что это помогает!
Jstr

Какие альтернативные детекторы функций, такие как SIFT, GLOH или SURF, существуют для определения подходящих ключевых точек на автомобилях?
Jstr

@jstr, если в итоге вы реализовали схему, описанную ниже, насколько хорошо она сработала?
solutionPuzzles

Ответы:


7

Я хотел бы взглянуть на так называемый подход «мешок слов» или «визуальные слова». Он все чаще используется для категоризации и идентификации изображений. Этот алгоритм обычно начинается с обнаружения надежных точек, таких как точки SIFT, на изображении. Используется область вокруг этих найденных точек (в вашем случае - 128-битный дескриптор SIFT).

В наиболее простой форме можно собрать все данные из всех дескрипторов всех изображений и объединить их в кластеры, например, с помощью k-средних. Каждое исходное изображение имеет дескрипторы, которые вносят вклад в несколько кластеров. Центроиды этих скоплений, то есть визуальные слова, могут использоваться в качестве нового дескриптора изображения. По сути, вы надеетесь, что кластеры, в изображение которых вносятся дескрипторы, указывают на категорию изображения.

Опять же, в самом простом случае у вас есть список кластеров, и для каждого изображения вы подсчитываете, какие из этих кластеров содержат дескрипторы этого изображения и сколько. Это похоже на метод Term Frequency / Inverse Document Frequency (TD / IFD), используемый при поиске текста. Посмотрите этот быстрый и грязный скрипт Matlab .

Этот подход активно исследуется, и существует множество более совершенных алгоритмов.

Веб-сайт VLfeat содержит более продвинутую демонстрацию этого подхода, классифицирующую набор данных caltech 101. Также следует отметить результаты и программное обеспечение самого Caltech .


Привет, Мауриц, спасибо за ваш ответ. Я подумаю об этом! Но один вопрос. Если у меня есть «визуальные слова», как мне измерить расстояние между ними? Я думаю, что я использовал бы дескрипторы SIFT, это правильно? - У Лоу есть одна статья, в которой он описывает метод распознавания трехмерных объектов путем построения моделей дескрипторов SIFT. Кто-нибудь знает другие хорошие статьи на эту тему (распознавание 3D-объектов с другими функциями)?
Jstr

В этом случае просто евклидово расстояние, поскольку вы кластеризуете целочисленные векторы. Я не думаю, что вам нужно измерять расстояние между центроидами кластера как таковыми, но вместо этого, когда вы представляете изображение запроса (и, следовательно, дескрипторы запроса), вы измеряете, к каким центроидам эти дескрипторы наиболее близки.
Мориц

Хорошо, использование меры расстояния ясно ;-) но на каких данных? О дескрипторах SIFT на визуальное слово?
Jstr

Фактически три раза в качестве метрики для начальной кластеризации, чтобы определить, к какому центроиду / визуальному слову дескриптор запроса является наиболее близким, и, наконец, сравнить вектор td / idf запроса с данными в базе данных.
Мориц

Хорошо, я понял это ;-) но на каких данных работает измерение расстояния? На дескрипторы SIFT?
Jstr
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.