Почему важен размер ВК?


12

Википедия говорит, что:

Измерение VC - это мощность наибольшего множества точек, которые алгоритм может разрушить.

Например, линейный классификатор имеет мощность n + 1. Мой вопрос, почему мы заботимся? Большинство наборов данных, по которым вы выполняете линейную классификацию, имеют тенденцию быть очень большими и содержать много точек.

Ответы:


4

Что такое измерение VC

Как упомянуто @CPerkins, измерение VC является мерой сложности модели. Это также может быть определено в отношении способности разрушать точки данных, как, как вы упоминали, в Википедии.

Основная проблема

  • Нам нужна модель (например, некоторый классификатор), которая хорошо обобщает невидимые данные.
  • Мы ограничены определенным количеством образцов данных.

На следующем изображении (взято отсюда ) показаны некоторые модели (от до S k ) различной сложности (размерность VC), которые показаны здесь на оси x и называются h .S1SКчас

Bias-Variance Tradeoff

Изображения показывают, что более высокое измерение VC допускает более низкий эмпирический риск (ошибка, которую модель допускает в данных выборки), но также вводит более высокий доверительный интервал. Этот интервал можно рассматривать как уверенность в способности модели обобщать.

Низкий размер VC (высокий уклон)

Если мы используем модель низкой сложности, мы вводим какое-то предположение (смещение) в отношении набора данных, например, при использовании линейного классификатора мы предполагаем, что данные могут быть описаны с помощью линейной модели. Если это не так, наша задача не может быть решена с помощью линейной модели, например, потому что проблема имеет нелинейный характер. В итоге мы получим плохо работающую модель, которая не сможет изучить структуру данных. Поэтому мы должны стараться избегать сильного смещения.

Большой размер VC (больший доверительный интервал)

По другую сторону от оси x мы видим модели более высокой сложности, которые могут быть настолько мощными, что они скорее запомнят данные, чем изучат их общую базовую структуру, т.е. После реализации этой проблемы нам кажется, что нам следует избегать сложных моделей.

Это может показаться спорным, поскольку мы не будем вводить смещение, то есть иметь низкий размер VC, но также не должны иметь высокий размер VC. Эта проблема имеет глубокие корни в статистической теории обучения и известна как компромисс дисперсии . В этой ситуации мы должны быть настолько сложными, насколько это необходимо, и настолько упрощенными, насколько это возможно, поэтому при сравнении двух моделей, которые заканчиваются одной и той же эмпирической ошибкой, мы должны использовать менее сложную.

Я надеюсь, что смогу показать вам, что за идеей измерения VC лежит нечто большее.


1

N

ВС

NNLог2(N)биты информации - аналогично проблеме двоичного поиска с отсортированным массивом.

NИксNDзнак равно{(Икс1,Y1),(Икс2,Y2),,,,,(ИксL,YL)}ИксяИксяNИксяεε1-δ(ε,δ)Lог2N/δε

Nε1-δLог2N/δε2

Lог2N

ε1-δε

введите описание изображения здесь

___________________ Обе линии (функция) классифицируют точки с одинаковым успехом ___________________

ВСLог2NВСВС-Lог(δ)εВС-Lог(δ)ε2

ВСε1-δ


0

Измерение VC является мерой сложности модели. Например, учитывая размерность VC Dvc, хорошее эмпирическое правило заключается в том, что у вас должно быть n = 10xDvc точек данных, учитывая сложность вашей модели.

Вы также можете использовать его для создания верхней границы ошибки теста.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.