Я изучал архитектуру сиамской нейронной сети, представленной Янном ЛеКуном и его коллегами в 1994 году для распознавания подписей ( «Проверка подписи с использованием сиамской нейронной сети с временной задержкой». Pdf, NIPS 1994)
Я понял общую идею этой архитектуры, но я действительно не могу понять, как работает обратное распространение в этом случае. Я не могу понять, каковы целевые значения нейронной сети, которая позволит обратному распространению правильно устанавливать веса каждого нейрона.
В этой архитектуре алгоритм вычисляет косинусное сходство между окончательными представлениями двух нейронных сетей. В документе говорится: «Требуемый выход для небольшого угла между выходами двух подсетей (f1 и f2), когда представлены подлинные подписи и большой угол, если одна из подписей является подделкой ".
Я не могу понять, как они могли использовать двоичную функцию (косинусное сходство между двумя векторами) в качестве цели для запуска обратного распространения.
Как вычисляется обратное распространение в сиамских нейронных сетях?