Шансы - это способ выразить свои шансы. Коэффициенты шансов просто так: один коэффициент делится на другой. Это означает, что отношение шансов - это то, на что вы умножаете один коэффициент на другой. Давайте посмотрим, как они работают в этой общей ситуации.
Преобразование между шансами и вероятностью
Шансы бинарного ответа - это отношение вероятности того, что это происходит (закодировано с 1 ), записанное Pr ( Y = 1 ) , к вероятности того, что это не произойдет (закодировано с ), записанное :Y1Pr ( Y= 1 )Pr ( Y = 0 )0Pr ( Y= 0 )
Коэффициенты ( Y) = Pr ( Y= 1 )Pr ( Y= 0 )= Pr ( Y= 1 )1 - Pr ( Y= 1 ),
Эквивалентное выражение справа показывает, что модели чтобы найти шансы. И наоборот, обратите внимание, что мы можем решитьPr ( Y= 1 )
Pr ( Y= 1 ) = шансы ( Y)1 + Коэффициенты ( Y)= 1 - 11 + Коэффициенты ( Y),
Логистическая регрессия
Логистическая регрессия моделирует логарифм шансов как линейную функцию объясняющих переменных. В целом, записывая эти переменные как x 1 , … , x p и включая возможный постоянный член в линейную функцию, мы можем назвать коэффициенты (которые должны быть оценены по данным) как β 1 , … , β p и β 0 . Формально это производит модельYИкс1, … , Хпβ1, … , Βпβ0
журнал( Коэффициенты ( Y) ) = β0+ β1Икс1+ ⋯ + βпИксп,
Сами шансы могут быть восстановлены путем удаления логарифма:
Коэффициенты ( Y) = exp( β0+ β1Икс1+ ⋯ + βпИксп) .
Использование категориальных переменных
Категориальные переменные, такие как возрастная группа, пол, наличие глаукомы и т. Д. , Включаются посредством «фиктивного кодирования». Чтобы показать, что то, как кодируется переменная, не имеет значения, я приведу простой пример одной небольшой группы; его обобщение на несколько групп должно быть очевидным. В этом исследовании одной переменной является «размер зрачка» с тремя категориями: «Большой», «Средний» и «Маленький». (Исследование рассматривает их как чисто категориальные, по-видимому, не обращая внимания на их внутренний порядок.) Интуитивно, каждая категория имеет свои собственные шансы, скажем, для «Large», для «Medium» и для «Small» , Это означает, что при прочих равных условияхα M α SαLαMαS
Коэффициенты ( Y) = exp( αL+ β0+ β1Икс1+ ⋯ + βпИксп)
для любого в категории «Большие»,
Коэффициенты ( Y) = exp( αM+ β0+ β1Икс1+ ⋯ + βпИксп)
для любого в категории «Средний», и
Коэффициенты ( Y) = exp( αS+ β0+ β1Икс1+ ⋯ + βпИксп)
для тех, кто в категории "Малый".
Создание идентифицируемых коэффициентов
Я выделил первые два коэффициента, чтобы выделить их, потому что я хочу, чтобы вы заметили, что они допускают простое изменение: мы можем выбрать любое число и, добавив его в и вычтя его из каждого из , и , мы не изменим прогнозируемые шансы. Это из-за очевидных эквивалентностей формыγβ0αLαMαS
αL+ β0= ( αL- γ) + ( γ+ β0) ,
и т. д. Несмотря на то, что это не представляет проблем для модели - она все же предсказывает точно такие же вещи - это показывает, что параметры сами по себе не интерпретируются. То, что остается неизменным, когда мы выполняем этот маневр сложения-вычитания, это различия между коэффициентами. Традиционно, чтобы решить проблему отсутствия идентифицируемости, люди (и по умолчанию программное обеспечение) выбирают одну из категорий в каждой переменной в качестве «базы» или «ссылки» и просто оговаривают, что ее коэффициент будет равен нулю. Это устраняет двусмысленность.
В документе сначала перечислены справочные категории; «Большой» в этом случае. Таким образом, вычитается из каждого из и и добавляется в для компенсации.αLαL, αM,αSβ0
Следовательно, логарифмические шансы для гипотетического индивида, попадающего во все базовые категории, равны плюс набор терминов, связанных со всеми другими "ковариатами" - переменными:β0
Odds(Base category)=exp(β0+β1X1+⋯+βpXp).
Нет термины , связанные с каким - либо категориальными переменными появляются здесь. (Я немного изменил обозначения на этом этапе: betas теперь являются коэффициентами только ковариат , в то время как полная модель включает alphas для различных категорий.)βiαj
Сравнение шансов
Давайте сравним шансы. Предположим, что гипотетический человек
пациент мужского пола в возрасте 80–89 лет с белой катарактой, без глазного дна и с небольшим зрачком, оперируемым специализированным регистратором, ...
С этим пациентом (давайте назовем его Чарли) связаны оценочные коэффициенты для каждой категории: для его возрастной группы, для мужчины и т. Д. Там , где его атрибут является базой для своей категории, коэффициент равен нулю по соглашению , как мы уже видели. Поскольку это линейная модель, коэффициенты добавляют. Таким образом, к базовым логарифмам, указанным выше, логарифмические шансы для этого пациента получаются путем добавления вα80-89αmale
α80-89+αmale+αno Glaucoma+⋯+αspecialist registrar.
Это как раз та сумма, на которую логарифмические шансы этого пациента отличаются от базового. Чтобы преобразовать из логарифмов, отмените логарифм и напомните, что это превращает сложение в умножение. Следовательно, базовые шансы должны быть умножены на
exp(α80-89)exp(αmale)exp(αno Glaucoma)⋯exp(αspecialist registrar).
Это числа, указанные в таблице в разделе «Скорректированное ИЛИ» (скорректированное соотношение шансов). (Это называется «скорректированным», потому что в модель были включены ковариаты . Они не играют никакой роли ни в одном из наших вычислений, как вы увидите. Это называется «отношением», потому что именно какие базовые шансы нужно умножить, чтобы получить прогнозные шансы пациента: см. первый абзац этого поста.) В таблице по порядку они выглядят как , , и т. д. Согласно статье, их продукт отрабатывает до . Следовательноx1,…,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5
Odds(Charlie)=34.5×Odds(Base).
1.00=exp(0)1
Восстановление результатов как вероятностей
0,736 % = 0,00736
Коэффициенты (база) = 0,007361 - 0,00736= 0,00741.
Следовательно, шансы Чарли
Коэффициенты (Чарли) = 34,5 × 0,00741 = 0,256.
Наконец, преобразование этого обратно в вероятности дает
Pr ( Y( Чарли ) = 1 ) = 1 - 11 + 0,256= 0,204.