Математическая интуиция смещения-дисперсии

Недавно я задал вопрос, пытаясь найти математическую интерпретацию / интуицию за элементарным уравнением, касающимся среднего значения выборки и дисперсии: , геометрическое или иное. $E[X^2] = Var(X) +(E[X])^2$

Но теперь мне интересно узнать внешне похожее уравнение компромисса смещения.

\begin{array}{rcl} MSE (\hat{θ}) = E [(\hat{θ} - θ)^{2}] & = & E [(\hat{θ} - E [\hat{θ}])^{2}] + (E [\hat{θ}] - θ)^{2} \\ = & Var (\hat{θ}) + Bias (\hat{θ}, θ)^{2} \end{array}

$\begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray}$ (формулы из Википедии )

Для меня есть поверхностное сходство с уравнением компромисса смещения дисперсии для регрессии: три слагаемых с квадратами и два с добавлением к другому. Очень пифагорейский вид. Есть ли похожие векторные отношения, включая ортогональность для всех этих элементов? Или есть какая-то другая математическая интерпретация, которая применима?

Я ищу математическую аналогию с некоторыми другими математическими объектами, которые могут пролить свет. Я не ищу аналогию точности-точности, которое хорошо освещено здесь. Но если есть нетехнические аналогии, которые люди могут дать между компромиссом между отклонением и гораздо более базовым отношением среднего отклонения, это тоже было бы здорово.

variance bias

— Митч
источник

Сходство более чем поверхностное.

«Компромисс смещения дисперсии» можно интерпретировать как теорему Пифагора, примененную к двум перпендикулярным евклидовым векторам: длина одного является стандартным отклонением, а длина другого - смещением. Длина гипотенузы является среднеквадратичной ошибкой.

Фундаментальные отношения

В качестве отправной точки рассмотрим этот показательный расчет, действительный для любой случайной величины с конечным вторым моментом и любого действительного числа . Поскольку второй момент конечен, имеет конечное среднее для которого , откуда $X$ $a$ $X$ $\mu=\mathbb{E}(X)$ $\mathbb{E}(X-\mu)=0$

\begin{matrix} (1) & \begin{aligned} E ((X - a)^{2}) & = E ((X - μ + μ - a)^{2}) \\ = E ((X - μ)^{2}) + 2 E (X - μ) (μ - a) + (μ - a)^{2} \\ = Var (X) + (μ - a)^{2} . \end{aligned} \end{matrix}

$\eqalign{ \mathbb{E}((X-a)^2) &= \mathbb{E}((X-\mu\,+\,\mu-a)^2) \\ &= \mathbb{E}((X-\mu)^2) + 2 \mathbb{E}(X-\mu)(\mu-a) + (\mu-a)^2 \\ &= \operatorname{Var}(X) + (\mu-a)^2.\tag{1} }$

Это показывает , как средний квадрат отклонения между и любой «базовой линии» значение изменяется с : она является квадратичной функцией с минимумом , где средний квадрат отклонения дисперсия . $X$ $a$ $a$ $a$ $\mu$ $X$

Связь с оценками и предвзятостью

Любая оценка является случайной величиной, потому что (по определению) это (измеримая) функция случайных величин. Позволяя ему играть роль в предыдущем, и позволяя оценке (вещь, которую должен оценивать ) быть , мы имеем $\hat \theta$ $X$ $\hat\theta$ $\theta$

MSE (\hat{θ}) = E ((\hat{θ} - θ)^{2}) = Var (\hat{θ}) + (E (\hat{θ}) - θ)^{2} .

$\operatorname{MSE}(\hat\theta) = \mathbb{E}((\hat\theta-\theta)^2) = \operatorname{Var}(\hat\theta) + (\mathbb{E}(\hat\theta)-\theta)^2.$

Давайте вернемся к теперь, когда мы увидели, что утверждение о смещении + дисперсия для оценки буквально является случаем . Вопрос ищет «математические аналогии с математическими объектами». Мы можем сделать больше, чем просто, показывая, что квадратично интегрируемые случайные величины могут быть естественно преобразованы в евклидово пространство. $(1)$ $(1)$

Математическое обоснование

В очень общем смысле случайная величина - это (измеримая) вещественная функция на вероятностном пространстве . Множество таких функций, которые являются квадратично интегрируемыми, что часто пишется (с учетом данной структуры вероятности), почти является гильбертовым пространством. Для того, чтобы сделать это в единое целое, мы должны приравнивать любые две случайные величины и , которые на самом деле не отличаются с точки зрения интеграции: то есть, мы говорим и являются эквивалентными , когда $(\Omega, \mathfrak{S}, \mathbb{P})$ $\mathcal{L}^2(\Omega)$ $X$ $Y$ $X$ $Y$

E (| X - Y |^{2}) = \int_{Ω} | X (ω) - Y (ω) |^{2} d P (ω) = 0.

$\mathbb{E}(|X-Y|^2) = \int_\Omega |X(\omega)-Y(\omega)|^2 d\mathbb{P}(\omega) = 0.$

Это просто , чтобы проверить , что это истинное отношение эквивалентности: самое главное, когда эквивалентен и эквивалентно , то обязательно будет эквивалентен . Поэтому мы можем разбить все квадратично интегрируемые случайные величины на классы эквивалентности. Эти классы образуют множество . Кроме того, наследует векторное пространство , структура определяется поточечного сложения значений и точечно скалярного умножения. На этом векторном пространстве функция $X$ $Y$ $Y$ $Z$ $X$ $Z$ $L^2(\Omega)$ $L^2$ $\mathcal{L}^2$

X \to {(\int_{Ω} | X (ω) |^{2} d P (ω))}^{1 / 2} = \sqrt{E (| X |^{2})}

$X \to \left(\int_\Omega |X(\omega)|^2 d\mathbb{P}(\omega)\right)^{1/2}=\sqrt{\mathbb{E}(|X|^2)}$

является нормой , часто пишется . Эта норма превращает в гильбертово пространство. Думайте о гильбертовом пространстве как о "бесконечномерном евклидовом пространстве". Любое конечномерное подпространство наследует норму от и , с этой нормой, является евклидовым пространством: в нем мы можем сделать евклидову геометрию. $||X||_2$ $L^2(\Omega)$ $\mathcal{H}$ $V\subset \mathcal{H}$ $\mathcal{H}$ $V$

Наконец, нам нужен один факт, который является особенным для вероятностных пространств (а не пространств общих мер): поскольку является вероятностью, она ограничена (на ), откуда постоянные функции (для любого фиксированное действительное число ) - квадратично интегрируемые случайные величины с конечными нормами. $\mathbb{P}$ $1$ $\omega\to a$ $a$

Геометрическая интерпретация

Рассмотрим любую квадратично-интегрируемую случайную величину , которая рассматривается как представитель ее класса эквивалентности в . Он имеет средний , которые (как можно проверить) зависит только от класса эквивалентности . Пусть будет классом постоянной случайной величины. $X$ $L^2(\Omega)$ $\mu=\mathbb{E}(X)$ $X$ $\mathbf{1}:\omega\to 1$

$X$ и порождают евклидово подпространство , размерность которого не больше . В этом подпространстве - это квадрат длины а - квадрат длины постоянной случайной величины . Принципиально, что перпендикулярен . (Одно из определений - это уникальный номер, для которого это так.) Соотношение можно записать $\mathbf{1}$ $V\subset L^2(\Omega)$ $2$ $||X||_2^2 = \mathbb{E}(X^2)$ $X$ $||a\,\mathbf{1}||_2^2 = a^2$ $\omega\to a$ $X-\mu\mathbf{1}$ $\mathbf{1}$ $\mu$ $(1)$

| | X - a 1 | |_{2}^{2} = | | X - μ 1 | |_{2}^{2} + | | (a - μ) 1 | |_{2}^{2} .

$||X - a\mathbf{1}||_2^2 = ||X - \mu\mathbf{1}||_2^2 + ||(a-\mu)\mathbf{1}||_2^2.$

Это действительно точно теорема Пифагора, в сущности та же самая форма, известная 2500 лет назад. Объект является гипотенузой прямоугольного треугольника с ножками и .

X - a 1 = (X - μ 1) - (a - μ) 1

$X-a\mathbf{1} = (X-\mu\mathbf{1})-(a-\mu)\mathbf{1}$

X - μ 1

$X-\mu\mathbf{1}$

(a - μ) 1

$(a-\mu)\mathbf{1}$

Если вам нужны математические аналогии, вы можете использовать все, что можно выразить в терминах гипотенузы прямоугольного треугольника в евклидовом пространстве. Гипотенуза будет представлять «ошибку», а ноги - смещение и отклонения от среднего.

— Whuber
источник

Превосходно. Таким образом, рассуждения почти идентичны рассуждениям для моего предыдущего вопроса re . Итак, есть аналогия между ними, верно? Интуитивно кажется, что смещение аналогично значению. И обобщение состоит в том, что среднее значение является первым моментом по отношению к 0, но смещение относится к истинному значению параметра. Это звучит правильно?

V a r = E X^{2} - (E X)^{2}

$Var = EX^2 - (EX)^2$

— Митч

Да - с условием (которое является дополнением к геометрической интерпретации), что правильный способ измерить эти вещи с точки зрения их квадратов.

— whuber

Итак, у меня есть связанный вопрос. Для любого машинного обучения у меня есть эти две концепции: «если мы увеличим размер выборки, дисперсия асимптотически несмещенной оценки будет стремиться к нулю» и «если мы увеличим сложность модели, следовательно, у нас будет низкий уклон и высокая дисперсия» , Следовательно, могу ли я сказать, что большая вычислительная мощность обеспечивает большую сложность, которая уменьшает смещение, но увеличивает дисперсию. Однако при асимптотике это увеличение дисперсии будет компенсировано.

— АРАТ

@Mustafa Вы делаете сильные предположения. Во-первых, выборка является случайной и (по крайней мере, приблизительно) независимой, что часто не относится к приложениям ML. Выводы об увеличении сложности модели, как правило, не верны, отчасти потому, что «увеличение сложности» подразумевает, что вы меняете модель, и это ставит под сомнение значение того, что оценивает ваш оценщик, а также то, как этот оценщик может быть связан с его оценкой , Из этого не обязательно следует, что увеличение сложности модели оказывает какое-либо предсказуемое влияние на смещение или дисперсию.

— whuber

Это способ визуально подумать о точности и компромиссе между отклонениями. Предположим, вы смотрите на цель и делаете много выстрелов, которые разбросаны близко к центру цели таким образом, что нет смещения. Тогда точность определяется только дисперсией, а когда дисперсия мала, стрелок точен.

Теперь давайте рассмотрим случай, когда есть большая точность, но большой уклон. В этом случае снимки разбросаны вокруг точки, удаленной от центра. Что-то портит прицел, но вокруг этой цели каждый выстрел близок к этой новой точке. Стрелок точный, но очень неточный из-за предвзятости.

Есть и другие ситуации, когда кадры точны из-за небольшого смещения и высокой точности. То, что мы хотим, - это не смещение, а небольшое отклонение или небольшое отклонение с небольшим смещением. В некоторых статистических задачах вы не можете иметь и то, и другое. Таким образом, MSE становится мерой точности, которую вы хотите использовать, которая компенсирует компромисс дисперсионного смещения, и минимизация MSE должна быть целью.

— Майкл Р. Черник
источник

Превосходное интуитивное описание повторяющихся отклонений и аналогий точности и точности. Я также ищу математическую интерпретацию, такую как теорема Пифагора.

— Митч

Я не сосредоточился на этом, потому что он был освещен в другом посте, в котором обсуждалась геометрическая интерпретация. Я найду ссылку для вас.

— Майкл Р. Черник

@Mitch Поиск "компромисса смещения отклонений" дал 134 хита на сайте резюме. Я еще не нашел теорему Пифагора, но она действительно хороша и содержит картину целей, которые я обсуждал в этом посте. «Интуитивное объяснение компромисса смещения».

— Майкл Р. Черник

Я нашел ту, которую искал от 5 января 2017 года «интуиция (геометрическая или другая) Вар (X) = E [ ] - ( ).

X^{2}

$X^2$

E [X])^{2}

$E[X])^2$

— Майкл Р. Черник,

@ Митч Я не понял, что ты опубликовал вопрос, который я искал.

— Майкл Р. Черник