98

Многие классификаторы машинного обучения (например, машины опорных векторов) позволяют указывать ядро. Что было бы интуитивно понятным способом объяснить, что такое ядро?

Один из аспектов, о котором я думал, - это различие между линейным и нелинейным ядрами. Проще говоря, я мог бы говорить о «линейных решающих функциях» и «нелинейных решающих функциях». Тем не менее, я не уверен, является ли хорошая идея назвать ядро «функцией принятия решения».

Предложения?

— hashkey
источник

114

Ядро - это способ вычисления точечного произведения двух векторов и в некотором (возможно, очень многомерном) пространстве признаков, поэтому функции ядра иногда называют «обобщенным точечным произведением». $\mathbf x$ $\mathbf y$

Предположим, у нас есть отображение которое переносит наши векторы из в некоторое пространство признаков . Тогда скалярное произведение и в этом пространстве равно . Ядром является функция которая соответствует этому точечному произведению, то есть . $\varphi \, : \, \mathbb R^n \to \mathbb R^m$ $\mathbb R^n$ $\mathbb R^m$ $\mathbf x$ $\mathbf y$ $\varphi(\mathbf x)^T \varphi(\mathbf y)$ $k$ $k(\mathbf x, \mathbf y) = \varphi(\mathbf x)^T \varphi(\mathbf y)$

Почему это полезно? Ядра позволяют вычислять точечные произведения в некотором пространстве признаков, даже не зная, что это за пространство и что такое . $\varphi$

Например, рассмотрим простое ядро полинома с . Кажется, это не соответствует какой-либо функции отображения , это просто функция, которая возвращает действительное число. Предполагая, что и , давайте расширим это выражение: $k(\mathbf x, \mathbf y) = (1 + \mathbf x^T \mathbf y)^2$ $\mathbf x, \mathbf y \in \mathbb R^2$ $\varphi$ $\mathbf x = (x_1, x_2)$ $\mathbf y = (y_1, y_2)$

$\begin{align} k(\mathbf x, \mathbf y) & = (1 + \mathbf x^T \mathbf y)^2 = (1 + x_1 \, y_1 + x_2 \, y_2)^2 = \\ & = 1 + x_1^2 y_1^2 + x_2^2 y_2^2 + 2 x_1 y_1 + 2 x_2 y_2 + 2 x_1 x_2 y_1 y_2 \end{align}$

Обратите внимание, что это не что иное, как скалярное произведение между двумя векторами и и . Таким образом, ядро вычисляет скалярное произведение в 6-мерное пространство без явного посещения этого пространства. $(1, x_1^2, x_2^2, \sqrt{2} x_1, \sqrt{2} x_2, \sqrt{2} x_1 x_2)$ $(1, y_1^2, y_2^2, \sqrt{2} y_1, \sqrt{2} y_2, \sqrt{2} y_1 y_2)$ $\varphi(\mathbf x) = \varphi(x_1, x_2) = (1, x_1^2, x_2^2, \sqrt{2} x_1, \sqrt{2} x_2, \sqrt{2} x_1 x_2)$ $k(\mathbf x, \mathbf y) = (1 + \mathbf x^T \mathbf y)^2 = \varphi(\mathbf x)^T \varphi(\mathbf y)$

Другим примером является гауссово ядро . Если мы расширим эту функцию по Тейлору, то увидим, что она соответствует бесконечномерному кодомену . $k(\mathbf x, \mathbf y) = \exp\big(- \gamma \, \|\mathbf x - \mathbf y\|^2 \big)$ $\varphi$

Наконец, я рекомендую онлайн-курс «Изучение данных» профессора Ясера Абу-Мостафы как хорошее введение в методы, основанные на ядре. В частности, лекции «Машины опорных векторов» , «Методы ядра» и «Функции радиального базиса» посвящены ядрам.

— Алексей Григорьев
источник

2

Текущее определение тега: «Интуитивно понятный: вопросы, которые требуют концептуального или нематематического понимания статистики». Нет четкого указания, трактуется ли концептуальный как синоним нематематического.

— rolando2

40

Очень простой и интуитивно понятный подход к ядрам (по крайней мере для SVM) - это функция подобия. Учитывая два объекта, ядро выводит некоторую оценку сходства. Объекты могут быть чем угодно, начиная с двух целых чисел, двух вещественных векторов, деревьев, независимо от того, что функция ядра знает, как их сравнивать.

Возможно, самый простой пример - линейное ядро, также называемое точечным произведением. Учитывая два вектора, сходство - это длина проекции одного вектора на другой.

Еще один интересный пример ядра - ядро Гаусса. Учитывая два вектора, сходство будет уменьшаться с радиусом . Расстояние между двумя объектами "перевешивается" этим параметром радиуса. $\sigma$

Успех обучения с ядрами (опять же, по крайней мере, для SVM) очень сильно зависит от выбора ядра. Вы можете видеть ядро как компактное представление знаний о вашей проблеме классификации. Это очень часто проблема конкретная.

Я бы не назвал ядро функцией принятия решения, поскольку ядро используется внутри функции принятия решения. Учитывая точку данных для классификации, функция принятия решений использует ядро, сравнивая эту точку данных с рядом опорных векторов, взвешенных по изученным параметрам . Опорные векторы находятся в области этой точки данных и по изученным параметрам находятся алгоритмом обучения. $\alpha$ $\alpha$

— Владислав Довгальец
источник

Точечный продукт и проекция не совсем идентичны.

— ttnphns

В случае SVM, я считаю, что ядра - это меры расстояния в разных пространствах. Это соответствует идее о том, что SVM обобщает классификатор опорных векторов. В общем, ядра могут быть более сложными.

— Агиненский

30

Наглядный пример, чтобы помочь интуиции

Рассмотрим следующий набор данных, в котором желтые и синие точки явно не могут быть линейно разделены в двух измерениях.

Если бы мы могли найти пространство более высокой размерности, в котором эти точки были бы линейно отделимыми , то мы могли бы сделать следующее:

Сопоставьте оригинальные элементы с более высоким пространством трансформатора (отображение элементов)
Выполните линейный SVM в этом более высоком пространстве
Получить набор весов, соответствующих границе решения гиперплоскости
Отобразите эту гиперплоскость обратно в исходное 2D-пространство, чтобы получить нелинейную границу решения

Существует много пространств более высокого измерения, в которых эти точки линейно отделимы. Вот один пример

x_{1}, x_{2} :\to z_{1}, z_{2}, z_{3}

$x_1, x_2 : \rightarrow z_1, z_2, z_3$

z_{1} = \sqrt{2} x_{1} x_{2} z_{2} = x_{1}^{2} z_{3} = x_{2}^{2}

$z_1 = \sqrt{2}x_1x_2 \ \ z_2 = x_1^2 \ \ z_3 = x_2^2$

Это где трюк с ядром вступает в игру. Цитируя приведенные выше отличные ответы

Предположим, у нас есть отображение которое переносит наши векторы из в некоторое пространство признаков . Тогда скалярное произведение и в этом пространстве равно . Ядро - это функция которая соответствует этому точечному произведению, т.е. $\varphi \, : \, \mathbb R^n \to \mathbb R^m$ $\mathbb R^n$ $\mathbb R^m$ $\mathbf x$ $\mathbf y$ $\varphi(\mathbf x)^T \varphi(\mathbf y)$ $k$ $k(\mathbf x, \mathbf y) = \varphi(\mathbf x)^T \varphi(\mathbf y)$

Если бы мы могли найти функцию ядра, которая была бы эквивалентна приведенной выше карте возможностей, то мы могли бы вставить функцию ядра в линейный SVM и выполнять вычисления очень эффективно.

Полиномиальное ядро

Оказывается, что приведенное выше отображение признаков соответствует хорошо известному ядру полинома : . Пусть и получим $K(\mathbf{x},\mathbf{x'}) = (\mathbf{x}^T\mathbf{x'})^d$ $d = 2$ $\mathbf{x} = (x_1, x_2)^T$

\begin{aligned} К ((\begin{matrix} {Икс}_{1} \\ {Икс}_{2} \end{matrix}), (\begin{matrix} {Икс}_{1}^{'} \\ {Икс}_{2}^{'} \end{matrix})) & знак равно ({Икс}_{1} {Икс}_{2}^{'} + {Икс}_{2} {Икс}_{2}^{'})^{2} \\ знак равно 2 {Икс}_{1} {Икс}_{1}^{'} {Икс}_{2} {Икс}_{2}^{'} + ({Икс}_{1} {Икс}_{1}^{'})^{2} + ({Икс}_{2} {Икс}_{2}^{'})^{2} \\ знак равно (\sqrt{2} {Икс}_{1} {Икс}_{2} {Икс}_{1}^{2} {Икс}_{2}^{2}) (\begin{matrix} \sqrt{2} {Икс}_{1}^{'} {Икс}_{2}^{'} \\ {Икс}_{1}^{' 2} \\ {Икс}_{2}^{' 2} \end{matrix}) \end{aligned}

$\begin{aligned} k(\begin{pmatrix} x_1 \\ x_2 \end{pmatrix}, \begin{pmatrix} x_1' \\ x_2' \end{pmatrix} ) & = (x_1x_2' + x_2x_2')^2 \\ & = 2x_1x_1'x_2x_2' + (x_1x_1')^2 + (x_2x_2')^2 \\ & = (\sqrt{2}x_1x_2 \ x_1^2 \ x_2^2) \ \begin{pmatrix} \sqrt{2}x_1'x_2' \\ x_1'^2 \\ x_2'^2 \end{pmatrix} \end{aligned}$

К ((\begin{matrix} {Икс}_{1} \\ {Икс}_{2} \end{matrix}), (\begin{matrix} {Икс}_{1}^{'} \\ {Икс}_{2}^{'} \end{matrix})) знак равно φ (Икс)^{T} φ ({Икс}^{'})

$k(\begin{pmatrix} x_1 \\ x_2 \end{pmatrix}, \begin{pmatrix} x_1' \\ x_2' \end{pmatrix} ) = \phi(\mathbf{x})^T \phi(\mathbf{x'})$

φ ((\begin{matrix} {Икс}_{1} \\ {Икс}_{2} \end{matrix})) знак равно (\begin{matrix} \sqrt{2} {Икс}_{1} {Икс}_{2} \\ {Икс}_{1}^{2} \\ {Икс}_{2}^{2} \end{matrix})

$\phi(\begin{pmatrix} x_1 \\ x_2 \end{pmatrix}) =\begin{pmatrix} \sqrt{2}x_1x_2 \\ x_1^2 \\ x_2^2 \end{pmatrix}$

Визуализация карты объектов и результирующей границы

На левом графике показаны точки, нанесенные в преобразованном пространстве вместе с гиперплоскостью линейной границы SVM
Правый график показывает результат в оригинальном 2-D пространстве

Источник

Полный пост и код Python здесь
https://disi.unitn.it/~passerini/teaching/2014-2015/MachineLearning/slides/17_kernel_machines/handouts.pdf

— Ксавье Бурре Сикотт
источник

4

Очень просто (но точно) ядро является весовым фактором между двумя последовательностями данных. Этот весовой коэффициент может назначать больший вес одной « точке данных » в одну « точку времени », чем другой « точке данных », или назначать равный вес или назначать больший вес другой « точке данных » и так далее.

Таким образом, корреляция ( скалярное произведение ) может назначать больше «важности» в некоторых точках, чем в других, и, таким образом, справляться с нелинейностями (например, неплоскими пространствами ), дополнительной информацией, сглаживанием данных и так далее.

Еще одним способом является то, что ядро - это способ изменить относительные измерения (или единицы измерения ) двух последовательностей данных, чтобы справиться с вещами, упомянутыми выше.

Третий способ (связанный с двумя предыдущими) - это способ отображения или проецирования одной последовательности данных на другую способом 1: 1 с учетом заданной информации или критериев (например, искривленное пространство, пропущенные данные, данные). повторный заказ и тд). Так, например, данное ядро может растягивать или сжимать или обрезать или сгибать одну последовательность данных, чтобы соответствовать или отображать 1-к-1 на другую.

Ядро может действовать как Прокруст , чтобы « лучше всего подходить »

— Никос М.
источник

Я думаю, что вы можете говорить о ядрах в смысле оценки плотности ядра, а не о положительно-полуопределенных ядрах Mercer, используемых в SVM и связанных с ними методах.

— Дугал

@Dougal, в смысле этого ответа ядро является функцией взвешивания или мерой, используемой для корреляции данных особым образом или для использования определенных функций данных, поэтому также рассматриваются методы ядра SVM

— Никос М.

Как интуитивно объяснить, что такое ядро?

Наглядный пример, чтобы помочь интуиции

Полиномиальное ядро

Визуализация карты объектов и результирующей границы

Источник