Ниже приводится статья Лоу 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Одним из очевидных подходов будет выборка локальных интенсивностей изображения вокруг ключевой точки в соответствующем масштабе и сопоставление их с использованием нормализованной меры корреляции. Тем не менее, простая корреляция участков изображения очень чувствительна к изменениям, которые вызывают неправильную регистрацию образцов, например, к точному или трехмерному изменению точки обзора или нежестким деформациям. Лучший подход был продемонстрирован Edelman, Intrator и Poggio (1997). Их предполагаемое представление было основано на модели биологического зрения, в частности сложных нейронов в первичной зрительной коре.Эти сложные нейроны реагируют на градиент с определенной ориентацией и пространственной частотой, но местоположение градиента на сетчатке может смещаться в пределах небольшого восприимчивого поля, а не точно локализовано. Эдельман и соавт. предположил, что функция этих сложных нейронов состояла в том, чтобы допускать сопоставление и распознавание трехмерных объектов с разных точек зрения.
Я пытаюсь понять SIFT дескриптор. Я понимаю предыдущий этап (детектор ключевых точек).
Я не знаю, почему это так реализовано. Я хочу знать историю позади истории.