Различные способы получения доверительного интервала для отношения шансов из логистической регрессии


12

Я изучаю, как построить 95% доверительный интервал для отношения шансов из коэффициентов, полученных в логистической регрессии. Итак, учитывая модель логистической регрессии,

log(p1p)=α+βx

такой, что x=0 для контрольной группы и x=1 для группы случаев.

Я уже читал, что самый простой способ - построить 95% -й CI для β тогда мы применили экспоненциальную функцию, то есть

β^±1.96×SE(β^)exp{β^±1.96×SE(β^)}

Мои вопросы:

  1. Какова теоретическая причина, которая оправдывает эту процедуру? Я знаю, что odds ratio=exp{β} и оценки максимального правдоподобия инвариантны. Однако я не знаю связи между этими элементами.

  2. Должен ли дельта-метод давать тот же 95% доверительный интервал, что и предыдущая процедура? Используя дельта-метод,

    exp{β^}˙N(β, exp{β}2Var(β^))

    Потом,

    exp{β^}±1.96×exp{β}2Var(β^)

    Если нет, то какая процедура лучше?


1
Мне также нравится начальная загрузка для CI, если у меня есть значения параметров или тренировочные данные достаточного размера.
EngrStudent

2
Есть лучший способ сделать это, см. Stats.stackexchange.com/questions/5304/… подробности
mdewey

Ответы:


7
  1. Обоснованием процедуры является асимптотическая нормальность MLE для и результат аргументов, включающих центральную предельную теорему.β

  2. Дельта-метод исходит из линейного (т. Е. Первого порядка) разложения функции вокруг MLE. Впоследствии мы обращаемся к асимптотической нормальности и непредвзятости MLE.

Оба асимптотически дают одинаковый ответ. Но практически вы бы предпочли тот, который выглядит более нормально. В этом примере я предпочел бы первый, потому что последний, вероятно, будет менее симметричным.


3

Сравнение методов доверительных интервалов на примере из ISL

В книге «Введение в статистическое обучение» Тибширани, Джеймса, Хасти приведен пример на странице 267 доверительных интервалов для полиномиальной логистической регрессии степени 4 по данным о заработной плате . Цитирую книгу:

Мы моделируем бинарную используя логистическую регрессию с полиномом степени 4. Приведенная апостериорная вероятность получения заработной платы, превышающей 250 000 долл. США, показана синим цветом, а также приблизительно 95% доверительный интервал.wage>250

Ниже приведен краткий обзор двух методов построения таких интервалов, а также комментарии о том, как их реализовать с нуля.

Интервалы преобразования Wald / Endpoint

  • Вычислить верхнюю и нижнюю границы доверительного интервала для линейной комбинации (с использованием CI Вальда)xTβ
  • Примените монотонное преобразование к конечным точкам чтобы получить вероятности.F(xTβ)

Поскольку является монотонным преобразованиемx T βPr(xTβ)=F(xTβ)xTβ

[Pr(xTβ)LPr(xTβ)Pr(xTβ)U]=[F(xTβ)LF(xTβ)F(xTβ)U]

Конкретно это означает вычисление и затем применение преобразования логита к результату, чтобы получить нижнюю и верхнюю границы:βTx±zSE(βTx)

[exTβzSE(xTβ)1+exTβzSE(xTβ),exTβ+zSE(xTβ)1+exTβ+zSE(xTβ),]

Вычисление стандартной ошибки

Теория максимального правдоподобия говорит нам, что приблизительная дисперсия может быть вычислена с использованием ковариационной матрицы коэффициентов регрессии с использованиемxTβΣ

Var(xTβ)=xTΣx

Определить расчетную матрицу и матрицу какXV

X = [1x1,1x1,p1x2,1x2,p1xn,1xn,p]    V = [π^1(1π^1)000π^2(1π^2)000π^n(1π^n)]

где - значение й переменной для х наблюдений, а - прогнозируемая вероятность для наблюдения .xi,jjiπ^ii

Тогда ковариационная матрица может быть найдена как: и стандартной ошибкой какΣ=(XTVX)1SE(xTβ)=Var(xTβ)

95% доверительные интервалы для прогнозируемой вероятности могут быть затем нанесены на график как

введите описание изображения здесь


Доверительные интервалы дельта-метода

Подход заключается в том, чтобы вычислить дисперсию линейного приближения функции и использовать ее для построения больших выборочных доверительных интервалов.F

Var[F(xTβ^)]FT Σ F

Где - градиент, а - предполагаемая ковариационная матрица. Обратите внимание, что в одном измерении: Σ

F(xβ)β=F(xβ)xβxββ=xf(xβ)

Где является производной . Это обобщает в многомерном случаеfF

Var[F(xTβ^)]fT xT Σ x f

В нашем случае F - это логистическая функция (которую мы будем обозначать ), чья производнаяπ(xTβ)

π(xTβ)=π(xTβ)(1π(xTβ))

Теперь мы можем построить доверительный интервал, используя дисперсию, вычисленную выше.

C.I.=[Pr(xβ^)zVar[π(xβ^)]Pr(xβ^)+zVar[π(xβ^)]]

В векторной форме для многомерного случая

C.I.=[π(xTβ^)±z(π(xTβ^)(1π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1π(xTβ^))]
  • Обратите внимание, что представляет одну точку данных в , то есть одну строку матрицы проектар р + 1 хxRp+1X

введите описание изображения здесь


Открытое заключение

Изучение графиков нормального QQ как для вероятностей, так и для отрицательных логарифмических шансов показывает, что ни один из них не распределен нормально. Может ли это объяснить разницу?

введите описание изображения здесь

Источник:


1

Для большинства целей самый простой способ, вероятно, является лучшим, как обсуждалось в контексте преобразования журнала на этой странице . Представьте, что ваша зависимая переменная анализируется в логитовой шкале с проведенными статистическими тестами и доверительными интервалами (CI), определенными для этой логитовой шкалы. Обратное преобразование в отношение шансов просто помещает эти результаты в шкалу, которую читатель мог бы легче понять. Это также делается, например, в анализе выживаемости по Коксу, где коэффициенты регрессии (и 95% -й ДИ) экспоненциально определяются для получения коэффициентов опасности и их ДИ.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.