Каковы предположения о регрессии гребня и как их проверить?

Рассмотрим стандартную модель множественной регрессии где , так что нормальность, гомоскедастичность и некоррелированность ошибок сохраняются.

Y = X β + ε

$Y=X\beta+\varepsilon$

ε \sim N (0, σ^{2} I_{n})

$\varepsilon \sim \mathcal N(0, \sigma^2I_n)$

Предположим, что мы выполняем регрессию гребня, добавляя одинаковое небольшое количество ко всем элементам диагонали : $X$

β_{r i d g e} = [X^{'} X + k I]^{- 1} X^{'} Y

$\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y$

Существуют некоторые значения для которых коэффициент гребня имеет меньшую среднеквадратичную ошибку, чем полученные OLS, хотя является искаженной оценкой . На практике получается путем перекрестной проверки. $k$ $\beta_\mathrm{ridge}$ $\beta$ $k$

Вот мой вопрос: каковы предположения, лежащие в основе модели гребня? Чтобы быть более конкретным,

Все ли предположения об обычном наименьшем квадрате (OLS) верны с регрессией гребня?
Если да на вопрос 1, как мы проверяем гомоскедастичность и отсутствие автокорреляции с искаженной оценкой ? $\beta$
Есть ли работа по проверке других допущений МНК (гомоскедастичность и отсутствие автокорреляции) при регрессии гребня?

regression assumptions ridge-regression

— akyves
источник

Обратите внимание, что OLS не предполагает, что предикторы являются независимыми. Только определенные методы решения или формулы решения делают такие предположения. Важно то, как вы выбираете множитель регрессии гребня, а не то, что оценка может быть предвзятой. Если этот множитель выбирается путем визуального анализа трассы гребня, то у вас нет способа количественно определить неопределенности, что ставит под сомнение большинство формальных диагностических тестов в теории линейной регрессии. Это заставляет меня спросить, что вы на самом деле подразумеваете под «регрессией гребня»: как именно вы оцениваете ее параметр?

β

$\beta$

— whuber

Возможно, я ошибаюсь, но рассматриваю стандартную модель множественной регрессии . И если не является полным рангом, это приводит к необратимой матрице , особенно в случае большой размерности X. Я отредактировал свой вопрос. Благодарю.

β_{O L S} = (X^{'} X)^{- 1} X^{'} Y

$\beta_{OLS}=(X'X)^{-1}X'Y$

X

$X$

X^{'} X

$X'X$

— Akyves

Линейная регрессия может прекрасно справляться с коллинеарностью, если она не слишком велика.

— июня

Это не модель множественной регрессии: это только один способ выразить оценку наименьших квадратов. Когда не обратимо, нормальные уравнения все еще имеют решения, и (обычно) модель по-прежнему имеет уникальное соответствие , что означает, что она делает уникальные предсказания.

X^{'} X

$X^\prime X$

— whuber

Связанный: Модельные предположения о регрессии частичных наименьших квадратов (PLS) .

— говорит амеба: восстанови монику

Ответы:

Что такое допущение статистической процедуры?

Я не статистик, и это может быть неправильно, но я думаю, что слово «допущение» часто используется довольно неформально и может относиться к различным вещам. Для меня «предположение», строго говоря, является чем-то, что может иметь только теоретический результат (теорема).

Когда люди говорят о допущениях о линейной регрессии ( см. Подробное обсуждение здесь), они обычно ссылаются на теорему Гаусса-Маркова, которая гласит, что при допущениях о некоррелированных ошибках с равным отклонением и средним значением оценка OLS является СИНИЙ , т. е. несмещен и имеет минимальную дисперсию. Вне контекста теоремы Гаусса-Маркова мне не ясно, что бы вообще означало «предположение о регрессии».

Точно так же предположения, скажем, t-критерия с одной выборкой относятся к предположениям, согласно которым -статистика -распределена и, следовательно, вывод является действительным. Это не называется «теорема», но это четкий математический результат: если выборок нормально распределены, то -статистика будет следовать распределению Стьюдента с степенями свободы. $t$ $t$ $n$ $t$ $t$ $n-1$

Допущения о наказанных методах регрессии

Теперь рассмотрим любую методику регуляризованной регрессии: регрессию гребня, лассо, эластичную сетку, регрессию главных компонентов, регрессию частичных наименьших квадратов и т. Д. И т. Д. Весь смысл этих методов заключается в том, чтобы сделать предвзятую оценку параметров регрессии и надеяться на снижение ожидаемой потери путем использования компромисса смещения дисперсии.

Все эти методы включают один или несколько параметров регуляризации, и ни один из них не имеет определенного правила для выбора значений этого параметра. Оптимальное значение обычно определяется с помощью какой-либо процедуры перекрестной проверки, но существуют различные методы перекрестной проверки, и они могут давать несколько разные результаты. Более того, в дополнение к перекрестной проверке нередко вызывают некоторые дополнительные практические правила. В результате фактический результат любого из этих методов наказанной регрессии фактически не полностью определен этим методом, но может зависеть от выбора аналитика. $\hat \beta$

Поэтому мне не ясно, каким образом может быть какое-либо теоретическое утверждение оптимальности относительно , и поэтому я не уверен, что говорить о «допущениях» (наличии или отсутствии таковых) оштрафованных методов, таких как регрессия гребня, вообще имеет смысл , $\hat \beta$

Но как насчет математического результата, что регрессия гребня всегда побеждает OLS?

Hoerl & Kennard (1970) в Ridge Regression: Смещенная оценка для неортогональных задач доказали, что всегда существует значение параметра регуляризации такое, что оценка регрессии гребня имеет строго меньшие ожидаемые потери, чем оценка OLS. Это удивительный результат - посмотрите здесь для некоторого обсуждения, но это только доказывает существование такой , которая будет зависеть от набора данных. $\lambda$ $\beta$ $\lambda$

Этот результат на самом деле не требует каких-либо допущений и всегда верен, но было бы странно утверждать, что регрессия гребня не имеет никаких допущений.

Хорошо, но как мне узнать, могу ли я применить регрессию гребня или нет?

Я бы сказал, что даже если мы не можем говорить о предположениях, мы можем говорить о правилах большого пальца . Хорошо известно, что регрессия гребня имеет тенденцию быть наиболее полезной в случае множественной регрессии с коррелированными предикторами. Хорошо известно, что он имеет тенденцию превосходить OLS, часто с большим отрывом. Это будет иметь тенденцию превосходить его даже в случае гетероскедастичности, коррелированных ошибок или чего-либо еще. Таким образом, простое практическое правило гласит, что если у вас есть мультиколлинеарные данные, регрессия гребня и перекрестная проверка - это хорошая идея.

Возможно, есть и другие полезные практические правила (например, что делать с грубыми выбросами). Но они не являются предположениями.

Обратите внимание, что для регрессии OLS необходимы некоторые допущения для хранения значений. Напротив, сложно получить в регрессии гребня. Если это вообще делается, это делается с помощью начальной загрузки или с помощью какого-то подобного подхода, и опять же, здесь будет сложно указать конкретные предположения, поскольку нет математических гарантий. $p$ $p$

— амеба говорит восстановить монику
источник

В ситуации, когда кто-то выводит свойства логического вывода в отношении некоторой процедуры, будь то, например, свойства теста гипотезы наклона регрессии или свойства доверительного интервала или интервала прогнозирования, сами тесты будут получены по некоторым множество предположений. Поскольку во многих предметных областях на сегодняшний день наиболее распространенной целью использования регрессии является выполнение какого-либо вывода (в действительности, в некоторых прикладных областях это делается редко по любой другой причине), предположения, которые будут сделаны для логической процедуры, естественно связаны с ... ctd

— Восстановить Монику

ctd ... вещь, на которой они используются. Поэтому, если вам нужны некоторые предположения для получения t-теста для проверки коэффициента регрессии или для частичного F-теста, или для CI для среднего значения или интервала прогнозирования ... и обычные формы вывода все делают то же самое или почти тот же набор предположений, тогда они будут разумно рассматриваться как предположения, связанные с выполнением вывода с использованием этой вещи. Если кто-то должен сделать какой-либо вывод с помощью регрессии гребня (скажем, интервал прогнозирования) и сделать для этого предположения, можно также сказать, что это предположения ... ctd

— Glen_b -Восстановить Монику

необходимо иметь возможность получить (и, вероятно, затем использовать) этот конкретный вид вывода о регрессии гребня.

— Glen_b

R^{2}

$R^2$

Не слишком поздно, я хочу сказать спасибо @amoeba. Отличный ответ!

— akyves

Я хотел бы представить некоторые данные с точки зрения статистики. Если Y ~ N (Xb, sigma2 * In), то среднеквадратичная ошибка b ^ равна

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Если XT X приблизительно равен нулю, то inv (XT X) будет очень большим. Таким образом, оценка параметра b не является стабильной и может иметь следующую проблему.

некоторая абсолютная величина оценки параметра очень велика
б имеет противоположный положительный или отрицательный знак, чем ожидалось.
Добавление или удаление переменных или наблюдений приведет к резким изменениям оценок параметров.

Чтобы сделать порядковую оценку наименьших квадратов b стабильной, мы вводим регрессию гребня, оценивая b^(k)=inv(X.T*X+kI)*X.T*Y.И мы можем доказать, что всегда есть ак, которые делают среднеквадратичную ошибку

MSE(b^(k)) < MSE(b^).

В машинном обучении регрессия гребня называется регуляризацией L2 и предназначена для борьбы с переоснащением, вызванным многими функциями.

— Эмма
источник