Я думаю, что ключ к магии - это плавность. Мой длинный ответ, который следует, просто объяснить эту плавность. Это может или не может быть ответ, который вы ожидаете.
Краткий ответ:
Для положительно определенного ядра существует соответствующее ему пространство функций . Свойства функций определяются ядром. Оказывается, что если - ядро Гаусса, функции в очень гладкие. Итак, изученная функция (например, функция регрессии, главные компоненты в RKHS, как в ядре PCA) очень гладкая. Обычно предположение о гладкости целесообразно для большинства наборов данных, с которыми мы хотим работать. Это объясняет, почему ядро Гаусса является магическим.H k HkHkH
Длинный ответ о том, почему ядро Гаусса дает гладкие функции:
Положительно определенное ядро определяет (неявно) внутреннее произведение
для векторного элемента построенного из вашего входного , а
является гильбертовым пространством. Обозначения
означают внутреннее произведение между и . Для нашей цели вы можете представить себе как обычное евклидово пространство, но, возможно, с бесконечным числом измерений. Представьте себе обычный вектор бесконечной длины, такой какк ( х , у ) = ⟨ ф ( х ) , ф ( у ) ⟩ Н ф ( х ) х Н ⟨ ф ( х ) , ф ( ) , ф 2 ( х ) , ... ) Н е ( х ) = ⟨ F , φ ( хk(x,y)k(x,y)=⟨ϕ(x),ϕ(y)⟩Hϕ(x)xH ф ( х ) ф ( у ) H ϕ ( x ) = ( ϕ 1 ( x)⟨ϕ(x),ϕ(y)⟩ϕ(x)ϕ(y)Hϕ(x)=(ϕ1(x),ϕ2(x),…), В методах ядра является пространством функций, называемых воспроизводящим ядро гильбертовым пространством (RKHS). Это пространство обладает специальным свойством, называемым «воспроизводящим свойством», которое заключается в том, что . Это говорит о том, что для оценки сначала вы строите вектор признаков (бесконечно длинный, как уже упоминалось) для . Затем вы строите свой вектор признаков для обозначенного (бесконечно длинный). Оценка дается путем взятия внутреннего произведения двух. Очевидно, что на практике никто не будет строить бесконечно длинный вектор. Так как мы заботимся только о его внутреннем продукте, мы просто напрямую оцениваем ядроHf(x)=⟨f,ϕ(x)⟩е х φ ( х ) е ( х ) кf(x)fxϕ(x)f(x)k, Обход вычисления явных признаков и непосредственное вычисление его внутреннего продукта известен как «трюк ядра».
Каковы особенности?
Я продолжал говорить о функциях не уточняя, что они из себя представляют. Учитывая ядро , функции не являются уникальными. Но
определяется однозначно. Чтобы объяснить гладкость функций, рассмотрим особенности Фурье. Предположим, что трансляционно-инвариантное ядро означает
т. Е. Ядро зависит только от разности двух аргументов. Гауссово ядро обладает этим свойством. Пусть обозначает преобразование Фурье от .к ⟨ ф ( х ) , ф ( у ) ⟩ϕ1(x),ϕ2(x),…k⟨ϕ(x),ϕ(y)⟩к ( х , у ) = к ( х - у ) к кkk(x,y)=k(x−y)k^k
В этой точке зрения Фурье свойства
задаются как , Это говорит о том, что представление функции вашей функции
задается ее преобразованием Фурье, деленным на преобразование Фурье ядра . Элементное представление , которое является
является
где . Можно показать, что воспроизводящая собственность справедлива (упражнение для читателей).е : = ( ⋯ , е л / √fекхφ(х)(⋯,√f:=(⋯,f^l/k^l−−√,⋯)fkxϕ(x)я=√(⋯,k^l−−√exp(−ilx),⋯)i=−1−−−√
Как и в любом гильбертовом пространстве, все элементы, принадлежащие этому пространству, должны иметь конечную норму. Рассмотрим квадратную норму :f∈H
∥f∥2H=⟨f,f⟩H=∑∞l=−∞f^2lk^l.
Итак, когда эта норма конечна, т. принадлежит пространству? Это когда падает быстрее, чем так что сумма сходится. Теперь преобразование Фурье гауссова ядраff^2lk^l k(x,y)=exp(−∥x−y∥2σ2)
другой гауссов, где экспоненциально быстро убывает с . Таким образом, если находится в этом пространстве, его преобразование Фурье должно убывать даже быстрее, чем преобразование . Это означает, что функция будет эффективно иметь только несколько низкочастотных компонентов с большими весами. Сигнал только с низкочастотными составляющими не сильно "колеблется". Это объясняет, почему ядро Гаусса дает вам гладкую функцию.k^llfk
Дополнительно: А как насчет ядра Лапласа?
Если рассмотреть ядро Лапласа ,
его преобразование Фурье является распределением Коши, которое падает намного медленнее, чем экспоненциальный функция в преобразовании Фурье ядра Гаусса. Это означает, что функция будет иметь больше высокочастотных компонентов. В результате функция, заданная ядром Лапласа, является «более грубой», чем функция, заданная ядром Гаусса.k(x,y)=exp(−∥x−y∥σ)f
Какое свойство ядра Гаусса отсутствует у других ядер?
Независимо от гауссовой ширины, одно свойство состоит в том, что ядро Гаусса является «универсальным». Интуитивно это означает, что для заданной ограниченной непрерывной функции (произвольной) существует функция такая, что и
близки (в смысле точностью до произвольной. По сути, это означает, что ядро Гаусса дает функции, которые могут сколь угодно хорошо аппроксимировать «хорошие» (ограниченные, непрерывные) функции. Ядра Гаусса и Лапласа универсальны. Полиномиальное ядро, например, нет.gf∈Hfg∥⋅∥∞)
Почему бы нам не указать, скажем, PDF-файл Коши и не ожидать таких же результатов?
В общем, вы можете делать все что угодно, если только полученное
положительно определено. Положительная определенность определяется как
для всех , и всех
(набор натуральных чисел) , Если не является положительно определенным, то оно не соответствует внутреннему пространству произведений. Весь анализ прерывается, потому что у вас даже нет пространства функций
как упомянуто. Тем не менее, это может работать эмпирически. Например, касательное гиперболическое ядро (см. Номер 7 на этой странице )k∑Ni=1∑Nj=1k(xi,xj)αiαj>0αi∈R{xi}Ni=1N∈NkH
k(x,y)=tanh(αx⊤y+c)
который предназначен для имитации единиц активации сигмоида в нейронных сетях, является только положительно определенным для некоторых настроек и . Еще сообщалось, что это работает на практике.αc
А как насчет других видов функций?
Я сказал, что функции не являются уникальными. Для ядра Гаусса другой набор функций дается расширением Mercer . См. Раздел 4.3.1 знаменитой книги гауссовских процессов . В этом случае особенности являются полиномами Эрмита, оцененными в .ϕ(x)x