15

Я пытаюсь понять компромисс между отклонением оценки, отношением между отклонением оценки и отклонением модели, а также отношением между дисперсией оценки и дисперсией модели.

Я пришел к этим выводам:

Мы склонны переписывать данные, когда пренебрегаем смещением оценки, то есть когда мы стремимся минимизировать смещение модели, пренебрегая дисперсией модели (другими словами, мы стремимся минимизировать дисперсию оценки без учета уклон оценщика тоже)
И наоборот, мы склонны занижать данные, когда пренебрегаем дисперсией оценки, то есть когда мы стремимся минимизировать дисперсию модели, пренебрегая смещением модели (другими словами, мы стремимся минимизировать смещение оценка без учета дисперсии оценки тоже).

Верны ли мои выводы?

— Джон М
источник

Джон, я думаю, вам понравится читать эту статью Тала Яркони и Джейкоба Вестфолла - она дает интуитивную интерпретацию компромисса между отклонениями: jakewestfall.org/publications/… .

— Изабелла Гемент

22

Ну вроде. Как уже говорилось, вы приписываете намерение ученому минимизировать отклонения или отклонения. На практике вы не можете явно наблюдать смещение или дисперсию вашей модели (если бы вы могли, тогда вы бы знали истинный сигнал, и в этом случае вам не понадобится модель). В общем, вы можете наблюдать частоту ошибок вашей модели только на конкретном наборе данных, и вы пытаетесь оценить частоту ошибок вне выборки, используя различные творческие приемы.

Теперь вы действительно знаете , что, по крайней мере теоретически, эта частота ошибок может быть разложена на смещение и дисперсии точку, но вы не можете непосредственно наблюдать этот баланс в любой ситуации конкретного бетона. Поэтому я бы немного переформулировал ваши наблюдения как:

Модель не соответствует данным, когда смещение вносит основной вклад в ошибку выборки.
Модель подходит для данных, когда дисперсионный член вносит большую часть ошибок выборки.

В общем, нет реального способа узнать наверняка, так как вы никогда не сможете по-настоящему наблюдать смещение модели. Тем не менее, существуют различные модели поведения, которые указывают на то, что они находятся в той или иной ситуации:

Модели с переобучением, как правило, демонстрируют гораздо худшее качество соответствия в наборе данных тестирования по сравнению с набором данных обучения.
Модели с недостаточным количеством моделей, как правило, имеют сходные характеристики соответствия при тестировании и обучении.

Это модели, которые проявляются на известных графиках коэффициентов ошибок по сложности модели, этот пример взят из «Элемента статистического обучения»:

modelComplexity

Часто эти графики перекрываются кривой смещения и дисперсии. Я взял это из этой хорошей экспозиции :

введите описание изображения здесь

Но очень важно понимать, что вы никогда не увидите эти дополнительные кривые в любой реалистичной ситуации.

— Мэтью Друри
источник

4

Иллюстрирование смещения

Как отмечает @Matthew Drury, в реалистичных ситуациях вы не видите последний график, но следующий игрушечный пример может предоставить визуальную интерпретацию и интуицию тем, кто считает его полезным.

Набор данных и предположения

$Y$

$Y = sin(\pi x - 0.5) + \epsilon$ $\epsilon \sim Uniform(-0.5,0.5)$
$Y = f(x) + \epsilon$

$x$ $Y$ $Var(Y) = Var(\epsilon) = \frac{1}{12}$

$\hat f(x) = \beta_0 + \beta_1x + \beta_1 x^2 + ... + \beta_px^p$

Подгонка различных моделей полиномов

Интуитивно понятно, что прямая кривая будет работать плохо, поскольку набор данных явно нелинейный. Аналогично, подгонка полинома очень высокого порядка может быть чрезмерной. Эта интуиция отражена на графике ниже, который показывает различные модели и соответствующие им среднеквадратичные ошибки для данных о поездах и испытаниях.

Приведенный выше график работает для отдельного разделения поезда / теста, но как мы узнаем, обобщает ли он?

Оценка ожидаемого поезда и теста MSE

Здесь у нас много вариантов, но один из подходов состоит в том, чтобы случайным образом разделить данные между поездом / тестом - подогнать модель к заданному разделению и повторить этот эксперимент много раз. Результирующее MSE может быть нанесено на график, и среднее значение является оценкой ожидаемой ошибки.

Интересно видеть, что тест MSE сильно колеблется для разных разделений данных поезда / теста. Но взятие среднего значения для достаточно большого количества экспериментов дает нам большую уверенность.

$Y$

Уклон - Разница Разложение

Как объяснено здесь, MSE можно разбить на 3 основных компонента:

Е [(Y - \hat{е})^{2}] знак равно σ_{ε}^{2} + В я a s^{2} [\hat{е}] + В a р [\hat{е}]

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + Bias^2[\hat f] + Var[\hat f]$

Е [(Y - \hat{е})^{2}] знак равно σ_{ε}^{2} + {[е - Е [\hat{е}]]}^{2} + Е {[\hat{е} - Е [\hat{е}]]}^{2}

$E[ (Y - \hat f)^2 ] = \sigma^2_\epsilon + \left[ f - E[\hat f] \right]^2 + E\left[ \hat f - E[ \hat f] \right]^2$

Где в нашем игрушечном чехле:

$f$
$\sigma^2_\epsilon$ $\epsilon$
$E[\hat f]$
$\hat f$
$E\left[ \hat f - E[ \hat f] \right]^2$

Давая следующее соотношение

Примечание: приведенный выше график использует данные обучения для подбора модели, а затем вычисляет MSE на тренировке + тест .

— Ксавье Бурре Сикотт
источник

Вопрос о компромиссном отклонении

Иллюстрирование смещения

Набор данных и предположения

Подгонка различных моделей полиномов

Оценка ожидаемого поезда и теста MSE

Уклон - Разница Разложение