Интерпретация простых прогнозов отношения шансов в логистической регрессии


29

Я немного новичок в использовании логистической регрессии, и меня немного смущает расхождение между моими интерпретациями следующих значений, которые, по моему мнению, будут одинаковыми:

  • возведенные в степень значения беты
  • прогнозируемая вероятность результата с использованием бета-значений.

Вот упрощенная версия модели, которую я использую, где недоедание и страхование являются двоичными, а богатство непрерывным:

Under.Nutrition ~ insurance + wealth

Моя (фактическая) модель возвращает возведенное в степень бета-значение 0,8 для страхования, которое я бы интерпретировал как:

«Вероятность недоедания для застрахованного лица в 8 раз превышает вероятность недоедания для незастрахованного лица».

Тем не менее, когда я вычисляю разницу в вероятностях для отдельных лиц, вводя значения 0 и 1 в страховую переменную и среднее значение для богатства, разница в недоедании составляет всего 0,04. Это рассчитывается следующим образом:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

Я был бы очень признателен, если бы кто-то мог объяснить, почему эти значения отличаются, и какая может быть лучшая интерпретация (особенно для второго значения).


Дальнейшие разъяснения.
Как я понимаю, вероятность недоедания для незастрахованного лица (где B1 соответствует страховке):

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Пока вероятность недоедания для застрахованного лица составляет:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

Вероятность недоедания для незастрахованного лица по сравнению с застрахованным лицом:

exp(B1)

Есть ли способ перевести между этими значениями (математически)? Я все еще немного смущен этим уравнением (где у меня должно быть другое значение в RHS):

Prob(Ins) - Prob(Unins) != exp(B)

С точки зрения непрофессионала, вопрос заключается в том, почему страхование не меняет вероятность того, что его будут недоедать, настолько сильно, насколько это показывает отношение шансов? По моим данным, Prob (Ins) - Prob (Unins) = 0,04, где возведенное в степень значение бета составляет 0,8 (так почему же разница не равна .2?)


2
Применимы ли эти замечательные и четкие объяснения к логистическим моделям / регрессиям?

Ответы:


50

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1)xx+1

Дайте мне знать, если вам нужна дополнительная / другая информация.

Обновление:
я думаю, что это в основном проблема того, чтобы не знать вероятности и шансы, и как они связаны друг с другом. Ничто из этого не является очень интуитивным, вам нужно сесть и поработать с ним некоторое время и научиться мыслить в этих терминах; это никому не естественно

Проблема в том, что абсолютные числа очень трудно интерпретировать сами по себе. Допустим, я рассказывал вам о времени, когда у меня была монета, и я задавался вопросом, справедливо ли это. Так что я перевернул его и получил 6 голов. Что это значит? 6 много, мало, примерно так? Это ужасно сложно сказать. Для решения этой проблемы мы хотим дать номерам некоторый контекст. В таком случае есть два очевидных варианта предоставления необходимого контекста: я мог бы указать общее количество бросков или количество хвостов. В любом случае, у вас есть достаточная информация, чтобы разобраться в 6 головах, и вы могли бы вычислить другое значение, если бы я сказал вам, что вы не предпочитаете. Вероятность - это количество голов, деленное на общее количество событий. Шансы - это отношение количества голов к числу

probability=odds1+odds                odds=probability1probability
exp(β)

[0,1](,+)(0,+) . Эта последняя часть имеет жизненно важное значение: из-за ограниченного диапазона вероятностей вероятностиwealth

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Хотя он был написан в контексте другого вопроса, мой ответ здесь содержит много информации о логистической регрессии, которая может быть полезна для вас для более полного понимания LR и связанных с этим вопросов.)


Спасибо за ответ - я объяснил свою путаницу в редактировании выше.
Майк

Очень ценю, что нашли время написать полное объяснение - очень полезно.
Майк

Пожалуйста, @mike, для этого и есть резюме.
gung - Восстановить Монику

Ссылка на коэффициенты в Лас-Вегасе : я никогда не был в Лас-Вегасе, но, глядя на некоторые цены, предлагаемые сайтами в Вегасе, где они указывают дробные коэффициенты (в отличие от денежной линии), они следуют британской системе «коэффициенты против», а не статистические "шансы в пользу". Таким образом, «коэффициенты Лас-Вегаса» по вашей ссылке не соответствуют фактическим коэффициентам азартных игр, где «9 к 1» означает маловероятное событие, а не (как «9 к 1» означает для статистика) вероятное событие! Источник путаницы, который я пытаюсь обратиться сюда
Silverfish

@ Silverfish, я давно не был в Лас-Вегасе. Я не помню, обычно ли они перечисляют шансы за или против. Тем не менее, «от 4 до 5» называется коэффициентом Лас-Вегаса .
gung - Восстановить Монику

0

Ответ прост, если вы хотите сохранить все переменные постоянными и изменить одну переменную. Однако это становится немного сложнее, когда меняется каждая переменная. Вы можете посмотреть следующий пост, он может помочь http://analyticspro.org/2016/03/02/r-tutorial-multiple-linear-regression/


-1

Отношение шансов OR = Exp (b) преобразуется в Вероятность A = SQRT (OR) / (SQRT (OR) +1), где Вероятность A - вероятность события A, а OR - отношение события A / не происходящего события A (или выставлено / не выставлено страховкой как в вопросе выше). Мне потребовалось много времени, чтобы решить; Я не уверен, почему это не известная формула.

Есть пример. Предположим, в университет поступило 10 человек; 7 из них мужчины. Таким образом, для каждого мужчины это 70% вероятности быть принятым. Коэффициенты, которые должны быть приняты для мужчин, составляют 7/3 = 2,33 и не должны быть приняты 3/7 = 0,43. Соотношение шансов (ИЛИ) составляет 2,33 / 0,43 = 5,44, что означает, что у мужчин в 5,44 раза больше шансов быть принятыми, чем у женщин. Давайте найдем вероятность быть принятым для человека из ИЛИ: P ​​= SQRT (5.44) / (SQRT (5.44) +1) = 0.7

Обновление Это верно только в том случае, если количество принятых мужчин и женщин равно количеству заявителей. Другими словами, это не ИЛИ. Мы не можем найти выигрыш (или потерю) вероятности в зависимости от фактора, не зная дополнительной информации.


7232

Да, вы абсолютно правы, спасибо. Я обнаружил, что мы не можем преобразовать известное ИЛИ (которое мы получаем, например, как результат логистической регрессии) в выигрыш или потерю вероятности, не зная информации о предыдущих вероятностях. Я добавил обновление в свой ответ.
Никср
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.