Логистическая регрессия - срок ошибки и ее распределение


31

О том, существует ли термин ошибки в логистической регрессии (и его предполагаемом распределении), я читал в разных местах, что:

  1. Термин ошибки не существует
  2. термин ошибки имеет биномиальное распределение (в соответствии с распределением переменной ответа)
  3. термин ошибки имеет логистическое распределение

Может кто-нибудь уточнить, пожалуйста?


6
С логистической регрессией - или, действительно, с GLM в более общем смысле - обычно бесполезно думать с точки зрения наблюдения как «среднее + ошибка». Лучше думать с точки зрения условного распределения. Я бы не сказал, что термин «ошибки не существует», так как «думать в таких терминах бесполезно». Поэтому я бы не сказал, что это выбор между 1. или 2. Как я бы сказал, лучше сказать «ничего из вышеперечисленного». Однако независимо от того, в какой степени можно утверждать, что «1» или «2», хотя «3» безусловно, неправильно. Где ты это видел? yi|x
Glen_b

1
@Glen_b: Можно ли спорить за (2)? Я знал, что люди говорят это, но никогда не защищают это, когда это подвергается сомнению.
Scortchi - Восстановить Монику

3
@Glen_b Все три утверждения имеют конструктивную интерпретацию, в которой они верны. (3) рассматривается по адресу en.wikipedia.org/wiki/Logistic_distribution#Applications и en.wikipedia.org/wiki/Discrete_choice#Binary_Choice .
whuber

@whuber: я исправил свой ответ в отношении (3), который не был хорошо продуман; но все еще ломает голову над тем, в каком смысле (2) может быть правильным.
Scortchi - Восстановить Монику

2
χ2χ2

Ответы:


25

Предполагается, что при линейной регрессии наблюдения следуют гауссову распределению со средним параметром, зависящим от значений предиктора. Если вы вычтете среднее значение из наблюдений, вы получите ошибку : гауссово распределение со средним нулем и независимо от значений предикторов, то есть ошибки при любом наборе значений предикторов следуют тому же распределению.

y{0,1}π1ππ0π1π1ππ0π1π

«Термин ошибки имеет биномиальное распределение» (2) - просто неряшливость - «Гауссовские модели имеют гауссовские ошибки, эргономические биномиальные модели имеют биномиальные ошибки». (Или, как указывает @whuber, это может означать, что «разница между наблюдением и его ожиданием имеет биномиальное распределение, переведенное ожиданием».)

«Термин ошибки имеет логистическое распределение» (3) возникает в результате выведения логистической регрессии из модели, в которой вы наблюдаете, превышает ли скрытая переменная с ошибками после логистического распределения какой-либо порог. Так что это не та же самая ошибка, определенная выше. (Было бы странно говорить IMO вне этого контекста или без явной ссылки на скрытую переменную.)

kπyπkykπ


1
Не могли бы вы привести простой пример, касающийся части «термин ошибки отсутствует». У меня проблемы с пониманием того, как это написано.
Quirik

π


9

Для меня унификация логистической, линейной, пуассоновской регрессии и т. Д. Всегда была с точки зрения спецификации среднего значения и дисперсии в рамках Обобщенной линейной модели. Мы начинаем с определения распределения вероятностей для наших данных, нормального для непрерывных данных, Бернулли для дихотомического, Пуассона для счетчиков и т. Д. Затем мы указываем функцию связи, которая описывает, как среднее значение связано с линейным предиктором:

g(μi)=α+xiTβ

g(μi)=μi

g(μi)=log(μi1μi)

g(μi)=log(μi)

Единственное, что можно было бы рассмотреть при написании термина ошибки, это указать:

yi=g1(α+xiTβ)+eiE(ei)=0Var(ei)=σ2(μi)σ2(μi)=μi(1μi)=g1(α+xiTβ)(1g1(α+xiTβ))ei

ei


0
  1. Ошибок не существует. Мы моделируем среднее! Среднее значение - это просто истинное число.
  2. Это не имеет смысла для меня.
  3. Думайте переменную ответа как скрытую переменную. Если вы предполагаете, что термин ошибки обычно распределен, то модель становится пробит-моделью. Если вы предполагаете, что распределение термина ошибки является логистическим, то модель является логистической регрессией.

2
Я не вижу, как это помогает понять модель вероятности. Вероятностные модели проще, чем кажется.
Фрэнк Харрелл
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.