Как рассчитать VC-размерность?

12

Я изучаю машинное обучение, и я хотел бы знать, как рассчитать VC-измерение.

Например:

$h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases}$ , с параметрами $(a,b) ∈ R^2$ .

Каково его VC-измерение?

machine-learning classification vc-theory

10

Измерение VC является оценкой возможностей двоичного классификатора. Если вы можете найти набор из точек, чтобы он мог быть разбит классификатором (т.е. правильно классифицировать все возможные маркировок), и вы не можете найти ни одного набора из точек, которые можно разбить (т.е. для любого набора из балл, есть хотя бы один порядок маркировки, чтобы классификатор не мог правильно разделить все точки), тогда размерность VC равна . $n$ $2^n$ $n+1$ $n+1$ $n$

В вашем случае сначала рассмотрим две точки и , такие что . Тогда есть возможных маркировки $x_1$ $x_2$ $x_1 < x_2$ $2^2=4$

, $x_1:1$ $x_2:1$
, $x_1:0$ $x_2:0$
, $x_1:1$ $x_2:0$
, $x_1:0$ $x_2:1$

Все маркировки могут быть достигнуты с помощью классификатора путем установки параметров таким образом, чтобы $h$ $a<b \in R$

$a<x_1<x_2<b$
$x_1<x_2<a<b$
$a<x_1<b<x_2$
$x_1<a<x_2<b$

соответственно. (На самом деле, можно считать wlog, но этого достаточно, чтобы найти один набор, который можно разбить.) $x_1 < x_2$

Теперь рассмотрим три произвольных (!) Точки , , и предположим, что , тогда вы не сможете добиться маркировки (1,0,1). Как и в случае 3 выше, метки : 1 и : 0 означают . Что подразумевает > b и, следовательно, метку $x_1$ $x_2$ $x_3$ $x_1<x_2<x_3$ $x_1$ $x_2$ $a<x_1<b<x_2$ $x_3$ $x_3$ должно быть 0. Таким образом, классификатор не может разбить любой набор из трех точек, и, следовательно, размерность VC равна 2.

-

Может быть, это станет понятнее с помощью более полезного классификатора. Давайте рассмотрим гиперплоскости (т.е. линии в 2D).

Легко найти набор из трех точек, которые можно классифицировать правильно, независимо от того, как они помечены:

Для всех возможных маркировок мы можем найти гиперплоскость, которая идеально их разделяет. $2^3=8$

Однако мы не можем найти какой-либо набор из 4 точек, чтобы мы могли правильно классифицировать все возможных обозначений. Вместо формального доказательства я пытаюсь представить визуальный аргумент: $2^4=16$

Предположим пока, что 4 точки образуют фигуру с 4 сторонами. Тогда невозможно найти гиперплоскость, которая может правильно разделить точки, если мы пометим противоположные углы одинаковыми метками:

Если они не образуют фигуру с четырьмя сторонами, существует два «граничных случая»: «внешние» точки должны либо образовывать треугольник, либо все они должны образовывать прямую линию. В случае треугольника легко увидеть, что маркировка, в которой «внутренняя» точка (или точка между двумя углами) помечена как отличная от других, не может быть достигнута:

В случае отрезка применяется та же идея. Если конечные точки помечены не так, как другие, они не могут быть разделены гиперплоскостью.

Поскольку мы рассмотрели все возможные формации из 4 точек в 2D, мы можем заключить, что нет 4 точек, которые можно разбить. Следовательно, размер VC должен быть 3.

— oW_
источник

1

> Но функция может достигать x1 = 0, x2 = 0, x3 = 0. Это нужно для достижения всех ярлыков?

— 孙声孙

Я задал похожий вопрос здесь: datascience.stackexchange.com/questions/39064/…, который относится к функции линейной гипотезы. Не могли бы вы помочь ответить на это?

— Сухаил Гупта

3

Измерение VC классификатора определяется следующим образом:

VC = 1
found = False
while True:
    for point_distribution in all possible point distributions of VC+1 points:
        allcorrect = True
        for classdist in every way the classes could be assigned to the classes:
            adjust classifier
            if classifier can't classify everything correct:
                allcorrect = False
                break
        if allcorrect:
            VC += 1
            continue
    break

Таким образом, должен быть только один способ размещения трех точек так, чтобы все возможные распределения классов среди этого размещения точек были классифицированы правильным образом.

Если вы не разместите три точки на линии, восприятие будет правильным. Но нет способа заставить восприятие классифицировать все возможные распределения классов по 4 баллам, независимо от того, как вы расставили баллы

Ваш пример

$\mathbb{R}$

VC-Dimension 2: он может правильно классифицировать все четыре ситуации.

Очки: 0 и 42
Распределения:
- $a = 1337, b=3141$
- $a = 40, b = 1337$
- $a = -1, b = 1$
- $a = -1, b = 1337$

VC-Dimension 3: Нет, это не работает. Представьте себе классы trueи falseпорядок как True False True. Ваш классификатор не может справиться с этим. Следовательно, он имеет VC-размерность 2.

доказательство

$x_1, x_2, x_3 \in \mathbb{R}$ $x_1 < x_2 < x_3$

$x_1$ $x_2$ $x_3$

$x_1$

a \leq {Икс}_{1} \leq б

$a \leq x_1 \leq b$

x_{2}

$x_2$

требуется. В

и

, она должна быть

{Икс}_{2} < a or b < x_{2}

$x_2 < a \qquad\text{ or }\qquad b < x_2$

a \leq x_{1}

$a \leq x_1$

x_{1} < x_{2}

$x_1 < x_2$

b < x_{2}

$b < x_2$

a \leq {Икс}_{1} \leq б < {Икс}_{2} < {Икс}_{3}

$a \leq x_1 \leq b < x_2 < x_3$

x_{3}

$x_3$

a \leq {Икс}_{3} \leq б

$a \leq x_3 \leq b$

b < x_{3}

$b < x_3$ , Следовательно, с помощью этого классификатора невозможно правильно классифицировать все распределения классов любых трех точек. Следовательно, он не имеет размерности VC 3.

— Мартин Тома
источник

1

постоянный классификатор имеет VC-измерение 0 (хотя можно утверждать, что его не следует считать классификатором в первую очередь)

— oW_

1

О верно. Но да, я бы не назвал систему, которая вообще не может адаптироваться к данным, классификатором в контексте машинного обучения.

— Мартин Тома