Что за история о SIFT дескрипторе?


9

Ниже приводится статья Лоу 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Одним из очевидных подходов будет выборка локальных интенсивностей изображения вокруг ключевой точки в соответствующем масштабе и сопоставление их с использованием нормализованной меры корреляции. Тем не менее, простая корреляция участков изображения очень чувствительна к изменениям, которые вызывают неправильную регистрацию образцов, например, к точному или трехмерному изменению точки обзора или нежестким деформациям. Лучший подход был продемонстрирован Edelman, Intrator и Poggio (1997). Их предполагаемое представление было основано на модели биологического зрения, в частности сложных нейронов в первичной зрительной коре.Эти сложные нейроны реагируют на градиент с определенной ориентацией и пространственной частотой, но местоположение градиента на сетчатке может смещаться в пределах небольшого восприимчивого поля, а не точно локализовано. Эдельман и соавт. предположил, что функция этих сложных нейронов состояла в том, чтобы допускать сопоставление и распознавание трехмерных объектов с разных точек зрения.

Я пытаюсь понять SIFT дескриптор. Я понимаю предыдущий этап (детектор ключевых точек).

Я не знаю, почему это так реализовано. Я хочу знать историю позади истории.

Ответы:


1

64×64

64×6416×16

Для каждого патча мы рассчитываем градиенты, а затем находим доминирующее направление градиентов (которое имеет некоторые детали), затем выбираем доминирующее направление в качестве эталонного направления, мы будем делить 360 ° на 8 угловых областей, каждая из которых имеет 45 градусов, а затем суммировать Величина каждого градиента, которые лежат в каждой угловой области.

Мы могли бы рассматривать это как распределение или гистограмму 8 бинов направления градиента (учитывая, что у сильных градиентов больше информации, мы должны использовать их с большим весом при расчете распределения, поэтому мы используем их величину в качестве их веса, что приводит к сумме по их величине). Тогда мы нормализуем эти гистограммы.

В конце каждого патча мы имеем гистограмму из 8 бинов, и у нас есть 16 патчей, что приводит к 128 дескрипторам номера.

Находя доминантное направление, наш дескриптор также становится инвариантным относительно вращения. При использовании градиентов наш дескриптор становится инвариантным относительно исходного освещения, а путем нормализации полученных гистограмм наш дескриптор становится инвариантным к контрасту изображения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.