Термин «масштабно-инвариантный» означает следующее здесь. Допустим, у вас есть изображение I , и вы обнаружили особенность (известную точку интереса) f в некотором месте (x, y) и на некотором уровне масштаба s . Теперь предположим, что у вас есть изображение I ' , которое является уменьшенной версией I (например, с пониженной выборкой). Затем, если ваш детектор признаков не зависит от масштаба, вы должны быть в состоянии обнаружить соответствующий признак f ' в I' в соответствующем месте (x ', y') и соответствующий масштаб s ' , где (x, y, s) и (х ', у', с ') связаны с соответствующим преобразованием масштабирования.
Другими словами, если ваш масштабно-инвариантный детектор обнаружил характерную точку, соответствующую чьему-либо лицу, и затем вы увеличиваете или уменьшаете масштаб с помощью камеры в той же сцене, вы все равно должны обнаружить характерную точку на этом лице.
Конечно, вы также хотели бы иметь «дескриптор функции», который позволял бы вам сопоставить две функции, что в точности и дает вам SIFT.
Так что, рискуя еще больше сбить вас с толку, есть две вещи, которые не зависят от масштаба. Одним из них является детектор точек интереса DoG, который не зависит от масштаба, потому что он обнаруживает особый тип объектов изображения (блобов) независимо от их масштаба. Другими словами, детектор DoG обнаруживает капли любого размера. Другая инвариантная к масштабу вещь - это дескриптор объекта, который представляет собой гистограмму ориентации градиента, которая остается более или менее похожей для того же объекта изображения, несмотря на изменение масштаба.
Кстати, разность гауссианов используется здесь как приближение к фильтру Лапласа Гаусса.