Сравнение методов доверительных интервалов на примере из ISL
В книге «Введение в статистическое обучение» Тибширани, Джеймса, Хасти приведен пример на странице 267 доверительных интервалов для полиномиальной логистической регрессии степени 4 по данным о заработной плате . Цитирую книгу:
Мы моделируем бинарную используя логистическую регрессию с полиномом степени 4. Приведенная апостериорная вероятность получения заработной платы, превышающей 250 000 долл. США, показана синим цветом, а также приблизительно 95% доверительный интервал.wage>250
Ниже приведен краткий обзор двух методов построения таких интервалов, а также комментарии о том, как их реализовать с нуля.
Интервалы преобразования Wald / Endpoint
- Вычислить верхнюю и нижнюю границы доверительного интервала для линейной комбинации (с использованием CI Вальда)xTβ
- Примените монотонное преобразование к конечным точкам чтобы получить вероятности.F(xTβ)
Поскольку является монотонным преобразованиемx T βPr(xTβ)=F(xTβ)xTβ
[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]
Конкретно это означает вычисление и затем применение преобразования логита к результату, чтобы получить нижнюю и верхнюю границы:βTx±z∗SE(βTx)
[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]
Вычисление стандартной ошибки
Теория максимального правдоподобия говорит нам, что приблизительная дисперсия может быть вычислена с использованием ковариационной матрицы коэффициентов регрессии с использованиемxTβΣ
Var(xTβ)=xTΣx
Определить расчетную матрицу и матрицу какXV
X = ⎡⎣⎢⎢⎢⎢⎢11⋮1x1,1x2,1⋮xn,1……⋱…x1,px2,p⋮xn,p⎤⎦⎥⎥⎥⎥⎥ V = ⎡⎣⎢⎢⎢⎢⎢π^1(1−π^1)0⋮00π^2(1−π^2)⋮0……⋱…00⋮π^n(1−π^n)⎤⎦⎥⎥⎥⎥⎥
где - значение й переменной для х наблюдений, а - прогнозируемая вероятность для наблюдения .xi,jjiπ^ii
Тогда ковариационная матрица может быть найдена как: и стандартной ошибкой какΣ=(XTVX)−1SE(xTβ)=Var(xTβ)−−−−−−−−√
95% доверительные интервалы для прогнозируемой вероятности могут быть затем нанесены на график как
Доверительные интервалы дельта-метода
Подход заключается в том, чтобы вычислить дисперсию линейного приближения функции и использовать ее для построения больших выборочных доверительных интервалов.F
Var[F(xTβ^)]≈∇FT Σ ∇F
Где - градиент, а - предполагаемая ковариационная матрица. Обратите внимание, что в одном измерении: ∇Σ
∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)
Где является производной . Это обобщает в многомерном случаеfF
Var[F(xTβ^)]≈fT xT Σ x f
В нашем случае F - это логистическая функция (которую мы будем обозначать ), чья производнаяπ(xTβ)
π′(xTβ)=π(xTβ)(1−π(xTβ))
Теперь мы можем построить доверительный интервал, используя дисперсию, вычисленную выше.
C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]−−−−−−−−−√≤Pr(xβ^)+z∗Var[π(xβ^)]−−−−−−−−−√]
В векторной форме для многомерного случая
C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT Var[β^] x π(xTβ^)(1−π(xTβ^))]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
- Обратите внимание, что представляет одну точку данных в , то есть одну строку матрицы проектар р + 1 хxRp+1X
Открытое заключение
Изучение графиков нормального QQ как для вероятностей, так и для отрицательных логарифмических шансов показывает, что ни один из них не распределен нормально. Может ли это объяснить разницу?
Источник: