Как линейная регрессия использует нормальное распределение?


26

При линейной регрессии предполагается, что каждое прогнозируемое значение было выбрано из нормального распределения возможных значений. Увидеть ниже.

Но почему предполагается, что каждое прогнозируемое значение получено из нормального распределения? Как линейная регрессия использует это предположение? Что, если возможные значения обычно не распределяются?

введите описание изображения здесь


2
Только ошибки следуют за нормальным распределением (что подразумевает, что условная вероятность Y, учитывая, что X также является нормальной). Это, вероятно, традиционно из-за причин, связанных с центральной предельной теоремой. Но вы можете заменить нормальное на любое симметричное распределение вероятностей и получить те же оценки коэффициентов с помощью наименьших квадратов. Что отличается, тем не менее, это остаточная стандартная ошибка, правильность соответствия и способ проверки предположений.
Киан

4
Нормальные предположения в основном приходят к выводу - проверка гипотез, CIs, PIs. Если вы сделаете разные предположения, они будут разными, по крайней мере, в небольших выборках.
Glen_b

7
Кстати, для обычной линейной регрессии ваша диаграмма должна рисовать нормальные кривые по вертикали, а не по диагонали.
Glen_b

Ответы:


29

Линейная регрессия сама по себе не нуждается в нормальном (гауссовском) допущении, оценки могут быть вычислены (по линейным наименьшим квадратам) без необходимости такого допущения и имеют смысл без него.

Но тогда, как статистики, мы хотим понять некоторые свойства этого метода, ответы на такие вопросы, как: являются ли оценки наименьших квадратов оптимальными в некотором смысле? или мы можем сделать лучше с некоторыми альтернативными оценщиками? Затем при нормальном распределении слагаемых ошибок мы можем показать, что эти оценки действительно оптимальны, например, они «несмещены относительно минимальной дисперсии» или максимальной вероятности. Ни одна такая вещь не может быть доказана без нормального предположения.

Кроме того, если мы хотим построить (и проанализировать свойства) доверительные интервалы или проверки гипотез, то мы используем нормальное предположение. Но вместо этого мы могли бы построить доверительные интервалы с помощью других средств, таких как начальная загрузка. Тогда мы не используем нормальное предположение, но, увы, без этого, может быть, мы должны использовать некоторые другие оценки, кроме наименьших квадратов, может быть, некоторые надежные оценки?

На практике, конечно, нормальное распределение - самое большее удобная фикция. Итак, действительно важный вопрос заключается в том, насколько близки к норме мы должны претендовать на использование результатов, упомянутых выше? Это гораздо более сложный вопрос! Результаты оптимальности не являются надежными , поэтому даже очень небольшое отклонение от нормы может разрушить оптимальность. Это аргумент в пользу надежных методов. Еще один ответ на этот вопрос см. В моем ответе. Почему мы должны использовать t ошибок вместо обычных ошибок?

Другой важный вопрос: почему нормальность остатков «едва важна вообще» для оценки линии регрессии?

 EDIT

Этот ответ привел к большому обсуждению в комментариях, что снова привело к моему новому вопросу: линейная регрессия: есть ли ненормальное распределение, дающее идентичность OLS и MLE? который теперь наконец получил (три) ответа, приводя примеры, где ненормальные распределения приводят к оценкам наименьших квадратов.


Ошибка наименьших квадратов эквивалентна нормальному предположению.
Нил Г

4
Там нет такого противоречия. Например, теорема Гаусса-Маркова говорит, что линейный метод наименьших квадратов является оптимальным (в смысле наименьшей дисперсии) среди всех линейных оценок без какой-либо необходимости в предположениях о распределении (кроме существующей дисперсии). Наименьшие квадраты - это числовая процедура, которую можно определить независимо от любой вероятностной модели! Затем вероятностная модель используется для анализа этой процедуры со статистической точки зрения.
kjetil b halvorsen

2
@NeilG Конечно, MLE для нормалей - это метод наименьших квадратов, но это не означает, что метод наименьших квадратов должен предполагать нормальность. С другой стороны, большие отклонения от нормальности могут сделать метод наименьших квадратов плохим выбором (когда все линейные оценки плохие).
Glen_b

1
@NeilG То, что я сказал там, никоим образом не подразумевает эквивалентность LS и нормальности, но вы прямо говорите, что они эквивалентны, поэтому я действительно не думаю, что наши два утверждения даже близки к тавтологическим.
Glen_b

1
@Neil Можете ли вы показать, как ваше утверждение на самом деле подразумевает то, что я сказал? Я действительно не вижу этого.
Glen_b

3

Это обсуждение Что делать, если остатки нормально распределены, а у нет? хорошо обратился к этому вопросу.

Короче говоря, для регрессионной задачи мы только предполагаем, что отклик в норме зависит от значения х. Нет необходимости, чтобы независимые или ответные переменные были независимыми.


1
  1. Но почему предполагается, что каждое прогнозируемое значение получено из нормального распределения?

Для этого нет глубоких оснований, и вы можете изменить предположения о распределении, перейти на GLM или перейти к строгой регрессии. LM (нормальное распределение) популярен, потому что его легко вычислить, он достаточно стабилен, а остатки на практике часто более или менее нормальны.

  1. Как линейная регрессия использует это предположение?

Как и любая регрессия, линейная модель (= регрессия с нормальной ошибкой) ищет параметры, которые оптимизируют вероятность для данного предположения распределения. Смотрите здесь пример явного вычисления вероятности для линейной модели. Если взять логарифмическую вероятность линейной модели, она оказывается пропорциональной сумме квадратов, и ее оптимизация может быть рассчитана довольно удобно.

  1. Что, если возможные значения обычно не распределяются?

Если вы хотите приспособить модель к различным распределениям, следующие шаги учебника будут обобщенными линейными моделями (GLM), которые предлагают различные распределения или общие линейные модели, которые все еще нормальны, но ослабляют независимость. Возможны многие другие варианты. Если вы просто хотите уменьшить влияние выбросов, вы можете, например, рассмотреть надежную регрессию.


0

После повторного рассмотрения вопроса, я думаю, что нет смысла использовать нормальное распределение, если вы не хотите сделать какой-то вывод о параметре регрессии. И вы можете применить линейную регрессию и игнорировать распределение членов шума.


2
Не имеет большого смысла для меня.
SmallChess

0

(Икся,Yя)Yзнак равноβИкс+сβΣя(Yя-ΣяβИкся-с)2ηязнак равноYя-(βИкся+с)ββββэто ноль. Таким образом, статистика появляется как информация о том, насколько точна оценка точки . Что делать в случае, если нет статистических свойств термина ошибки? С извинениями перед «Выпускником» - одним словом бутстрап.β

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.