Что подразумевается под дисперсией * функций * в * Введение в статистическое обучение *?

На стр. 34 введения в статистическое обучение : $\newcommand{\Var}{{\rm Var}}$

Хотя математическое доказательство выходит за рамки данной книги, можно показать , что ожидаемый тест MSE для заданного значения $x_0$ , всегда можно разложить на сумму три основных величин: дисперсия в $\hat{f}(x_0)$ , квадрат смещения из $\hat{f}(x_0)$ и дисперсия членов ошибки $\varepsilon$ . Это,

$E {(y_{0} - \hat{f} (x_{0}))}^{2} = V a r (\hat{f} (x_{0})) + [B i a s (\hat{f} (x_{0}))]^{2} + V a r (ε)$ $E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon)$
[...] Отклонение относится к величине, на которую $\hat{f}$ изменится, если мы оценим ее, используя другой набор обучающих данных.

Вопрос: Поскольку $\Var\big(\hat{f}(x_0)\big)$ видимому, обозначает дисперсию функций , что это означает формально?

То есть я знаком с понятием дисперсии случайной величины $X$ , но как насчет дисперсии набора функций? Можно ли это рассматривать как просто дисперсию другой случайной величины, значения которой принимают форму функций?

machine-learning variance

— Джордж
источник

Учитывая, что каждый раз, когда появляется в формуле, он применяется к «заданному значению» , дисперсия применяется к числу , а не к самому . Поскольку это число предположительно было получено из данных, которые моделируются случайными величинами, оно также является (действительной) случайной величиной. Применяется обычная концепция дисперсии.

\hat{f}

$\hat f$

x_{0}

$x_0$

\hat{f} (x_{0})

$\hat{f}(x_0)$

\hat{f}

$\hat{f}$

— whuber

Понимаю. Таким образом, меняется (варьируется в зависимости от разных наборов обучающих данных), но мы все еще смотрим на дисперсию самих .

\hat{f}

$\hat{f}$

\hat{f} (x_{0})

$\hat{f}(x_0)$

— Джордж

Кто автор этого учебника? Я давно хотел изучить предмет самостоятельно и был бы очень признателен за ваши рекомендации.

— Chill2Macht

@WilliamKrinsman Это книга: www-bcf.usc.edu/~gareth/ISL

— Мэтью Друри,

Ответы:

Ваша переписка с @whuber верна.

Алгоритм обучения можно рассматривать как функцию более высокого уровня, отображающую обучающие наборы в функции. $\mathcal{A}$

A : T \to {f ∣ f : X \to R}

$\mathcal{A} : \mathcal{T} \rightarrow \{f \mid f: X \rightarrow \mathbb{R} \}$

где - пространство возможных обучающих наборов. С концептуальной точки зрения это может быть немного сложным, но в основном каждый отдельный обучающий набор приводит, после использования алгоритма модельного обучения, к особой функции которая может использоваться для прогнозирования с учетом точки данных . $\mathcal{T}$ $f$ $x$

Если мы рассматриваем пространство обучающих наборов как пространство вероятностей, так что имеется некоторое распределение возможных обучающих наборов данных, то алгоритм обучения модели становится случайной величиной с функцией и мы можем думать о статистических понятиях. В частности, если мы фиксируем конкретную точку данных , то получаем случайную переменную с числовым значением $x_0$

A_{x_{0}} (T) = A (T) (x_{0})

$\mathcal{A}_{x_0}(T) = \mathcal{A}(T)(x_0)$

Т.е. сначала обучаем алгоритм на , а затем оцениваем полученную модель в . Это просто старая, но оригинально сконструированная случайная величина в пространстве вероятностей, поэтому мы можем говорить о ее дисперсии. Это отклонение в вашей формуле от ISL. $T$ $x_0$

— Мэтью Друри
источник

Визуальная интерпретация с использованием повторяющихся kfolds

Чтобы дать визуальную / интуитивную интерпретацию ответа @Matthew Drury, рассмотрим следующий игрушечный пример.

Данные генерируются по шумовой синусоиде: «Истинный noise» $f(x) \ +$
Данные разбиты на обучающие и тестируемые образцы (75% - 25%).
Линейная (полиномиальная) модель подгоняется под тренировочные данные: $\hat f(x)$
Процесс повторяется много раз с использованием одних и тех же данных (т. Е. Обучение с разделением - случайное тестирование с использованием Sklearm, повторенного kfold)
Это порождает много разных моделей, из которых мы вычисляем среднее значение и дисперсию в каждой точке а также по всем точкам. $x=x_i$

Ниже приведены полученные графики для полиномиальной модели степени 2 и степени 6. На первый взгляд кажется, что верхний полином (в красном) имеет большую дисперсию.

Утверждая, что красный график имеет большую дисперсию - экспериментально

Пусть и соответствуют зеленому и красному графикам соответственно, а - один экземпляр графиков, светло-зеленого и светло-красного цвета. Пусть будет количеством точек вдоль оси а будет количеством графиков (т.е. количеством симуляций). Здесь мы имеем и $\hat f_g$ $\hat f_r$ $\hat f^{(i)}$ $n$ $x$ $m$ $n = 400$ $m = 200$

Я вижу три основных сценария

Дисперсия прогнозируемых значений в одной конкретной точке больше, т.е. $x = x_0$ $Var \ \left[ \{\hat f^{(1)}_r(x_0), ..., \hat f^{(m)}_r(x_0)\} \right] > Var \ \left[ \{\hat f^{(1)}_g(x_0),...,\hat f^{(i)}_g(x_0)\} \right]$
Дисперсия в больше для всех точек в диапазоне $(1)$ $\{ x_1,...,x_{400} \}$ $(0,1)$
Дисперсия в среднем больше (т.е. может быть меньше для некоторых точек)

В случае этого игрушечного примера все три сценария выполняются в диапазоне что оправдывает аргумент, что полиномиальное соответствие более высокого порядка (красным) имеет более высокую дисперсию, чем многочлен более низкого порядка (зеленым). $(0,1)$

Открытое заключение

О чем следует спорить, когда вышеупомянутые три сценария не все имеют место. Например, что если дисперсия красных прогнозов в среднем больше, но не для всех точек.

Детали этикеток

Рассмотрим точку $x_0 = 0.5$

Панель ошибок - это диапазон между минимальным и максимальным значением $\hat f(x_0)$
Дисперсия вычисляется в $x_0$
True - пунктирная синяя линия $f(x)$

— Ксавье Бурре Сикотт
источник

Мне нравится эта идея иллюстрировать концепцию с помощью картинок. Однако мне интересно узнать о двух аспектах вашего поста и надеюсь, что вы сможете решить их. Во-первых, не могли бы вы более подробно объяснить, как эти графики показывают «дисперсию функции»? Во-вторых, совсем не ясно, что красный график демонстрирует «большую дисперсию» или что эти два графика поддаются такому упрощенному сравнению. Например, рассмотрите вертикальный разброс значений красного выше и сравните его с разбросом зеленых значений в одной и той же точке: красные выглядят немного менее спредными, чем зеленые.

x = 0.95,

$x=0.95,$

— whuber

Моя точка зрения не в том, возможно ли читать ваши графики с высокой точностью: дело в том, что смысл сравнения двух таких графиков, как если бы один из них можно было считать «более высокой» или «более низкой» дисперсией, чем другой, сомнителен, учитывая возможность того, что для В некоторых диапазонах дисперсии прогнозов будут выше на одном графике, а для других диапазонов дисперсии будут ниже.

x

$x$

x

$x$

— whuber

Да, я согласен - я отредактировал пост, чтобы отразить ваши комментарии

— Ксавье Бурре Сикотт