Численная стабильность и переоснащение в некотором смысле связаны между собой, но это разные вопросы.
Классическая проблема МЖС:
Рассмотрим классическую задачу наименьших квадратов:
minimize(over b)(y−Xb)T(y−Xb)
Решением является классический . Идея состоит в том, что по закону больших чисел:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Следовательно, оценка OLS также сходится к . (В терминах линейной алгебры это линейная проекция случайной величины на линейную оболочку случайных величин .)b^E[xx′]−1E[xy]yx1,x2,…,xk
Проблемы?
Механически, что может пойти не так? Каковы возможные проблемы?
- Для небольших выборок наши выборочные оценки и могут быть плохими.E[xx′]E[xy]
- Если столбцы коллинеарны (либо из-за присущей коллинеарности, либо из-за небольшого размера выборки), проблема будет иметь континуум решений! Решение не может быть уникальным.
X
- Это происходит, если имеет недостаток ранга.E[xx′]
- Это также происходит, если имеет недостаток ранга из-за небольшого размера выборки по сравнению с количеством проблем регрессора.X′X
Проблема (1) может привести к переобучению, так как оценка начинает отражать закономерности в выборке, которых нет в основной совокупности. Оценка может отражать шаблоны в и которые на самом деле не существуют в иb^1nX′X1nX′yE[xx′]E[xy]
Проблема (2) означает, что решение не уникально. Представьте, что мы пытаемся оценить цену отдельной обуви, но пары обуви всегда продаются вместе. Это некорректная проблема, но, допустим, мы все равно это делаем. Мы можем верить, что цена левой обуви плюс цена правой обуви равна 50 долларам , но как мы можем определить индивидуальные цены? Устанавливает ли цена обуви а цена правой обуви ? Как мы можем выбрать из всех возможностей?pl=45pr=5
Представляем штраф :L2
Теперь рассмотрим:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Это может помочь нам с обоими типами проблем. штраф толкает нашу оценку к нулю. Это эффективно работает как байесовский до того, как распределение по значениям коэффициента сосредоточено вокруг . Это помогает с переоснащением. Наша оценка будет отражать как данные, так и наши первоначальные убеждения, что близок к нулю.L2b0b
L2Регуляризация также всегда позволяет нам найти уникальное решение некорректных задач. Если мы знаем, что цена левого и правого башмака составляет , решение, которое также минимизирует норму - это выбрать .$50L2pl=pr=25
Это волшебство? Нет. Регуляризация - это не то же самое, что добавление данных, которые фактически позволили бы нам ответить на вопрос. Регуляризация в некотором смысле принимает мнение, что если вам не хватает данных, выбирайте оценки ближе к .L20