Интуиция для опорных векторных машин и гиперплоскости


15

В моем проекте я хочу создать модель логистической регрессии для прогнозирования двоичной классификации (1 или 0).

У меня есть 15 переменных, 2 из которых являются категориальными, а остальные представляют собой смесь непрерывных и дискретных переменных.

Чтобы соответствовать модели логистической регрессии, мне посоветовали проверить линейную отделимость с использованием SVM, персептрона или линейного программирования. Это связано с предложениями, сделанными здесь относительно тестирования на линейную отделимость.

Как новичок в машинном обучении, я понимаю основные понятия об упомянутых выше алгоритмах, но концептуально я изо всех сил пытаюсь визуализировать, как мы можем разделить данные, которые имеют так много измерений, т.е. 15 в моем случае.

Все примеры в онлайн-материале, как правило, показывают двухмерный график двух числовых переменных (рост, вес), которые показывают четкий разрыв между категориями и облегчают их понимание, но в реальном мире данные обычно имеют гораздо более высокое измерение. Я все время возвращаюсь к набору данных Iris и пытаюсь составить гиперплоскость по всем трем видам, и как особенно трудно, если не невозможно, сделать это между двумя видами, два класса избегают меня прямо сейчас.

Как можно достичь этого, когда у нас есть еще более высокие порядки измерений , предполагается, что когда мы превышаем определенное количество признаков, мы используем ядра для отображения в пространство более высокого измерения, чтобы достичь этой отделимости?

Кроме того, чтобы проверить линейную отделимость, какая метрика используется? Это точность модели SVM, то есть точность, основанная на матрице путаницы?

Любая помощь в лучшем понимании этой темы будет принята с благодарностью. Также ниже приведен пример графика двух переменных в моем наборе данных, который показывает, насколько перекрываются только эти две переменные.

введите описание изображения здесь


1
кажется, у вас есть несколько разных вопросов в вашем посте. соберите их все вместе в список или удалите ненужные вопросы. это привлекает больше людей, чтобы отвечать и лучше ответы
Аксакал почти наверняка бинарный

2
обычно интуиция нуждается в большой помощи воображения при переходе от 2D к ситуации высокого измерения, часто интуиция полностью разрушается. есть много многомерных версий низкоразмерных задач, которые, кажется, принадлежат совершенно другому миру, где все работает иначе, подумайте о теореме Ферма
Аксакал почти наверняка бинарный

Ответы:


14

Я попытаюсь помочь вам понять, почему добавление измерений помогает линейному классификатору лучше разделить два класса.

Икс1Икс2Nзнак равно3

п = 3

Теперь представьте себе, что некоторые точки присваиваются классу 1, а некоторые - классу 2. Обратите внимание, что независимо от того, как мы назначаем классы точкам, мы всегда можем нарисовать линию, которая идеально разделяет два класса.

Но теперь допустим, что мы добавили новую точку:

п = 4

пзнак равно2

Икс3

р = 3, n = 4

пзнак равно3Nзнак равно4

пп+1

Nп

FNFNFFпFNзнак равноп+1Fппеременные, то это может разрушить любое количество очков. Это понятие разбития, которое говорит нам о сложности набора возможных классификаторов, исходит из теории статистического обучения и может быть использовано для формулировки утверждений о степени переобучения, которое может выполнить набор классификаторов. Если вы заинтересованы в этом, я настоятельно рекомендую Luxburg и Schölkopf «Статистическая теория обучения: модели, концепции и результаты» (2008).


большое спасибо за ваш подробный ответ, он действительно помог мне лучше понять идею многомерных функций и как их разделить интуитивно.
TheGoat

7

Легко сделать ошибку, если вы берете свою интуицию о пространствах с низкой размерностью и применяете ее к пространствам с высокой размерностью. Ваша интуиция в этом случае совершенно обратная. Оказывается, намного легче найти разделяющую гиперплоскость в пространстве более высокого измерения, чем в более низком пространстве.

Даже если смотреть на любые две пары переменных, красное и синее распределения перекрываются, при одновременном взгляде на все 15 переменных вполне возможно, что они вообще не перекрываются.


2

У вас есть 15 переменных, но не все они одинаково значимы для различения вашей зависимой переменной (некоторые из них могут даже быть почти неактуальными).

Анализ основных компонентов (PCA) пересчитывает линейную основу этих 15 переменных и упорядочивает их таким образом, что первые несколько компонентов обычно объясняют большую часть дисперсии. Таким образом, это позволяет вам свести 15-мерную задачу к (скажем) 2,3,4 или 5-мерной задаче. Следовательно это делает заговор более интуитивным; обычно вы можете использовать две или три оси для числовых (или порядковых порядковых чисел с высоким числом элементов), а затем использовать цвет, форму и размер маркера для трех дополнительных измерений (возможно, больше, если вы можете объединить порядковые числа с низким числом элементов). Таким образом, построение графиков с 6 наиболее важными ПК должно дать вам более четкую визуализацию поверхности вашего решения.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.