Тест Вальда для логистической регрессии


55

Насколько я понимаю, критерий Вальда в контексте логистической регрессии используется для определения значимости определенной предикторной переменной или нет. Он отвергает нулевую гипотезу о том, что соответствующий коэффициент равен нулю.X

Тест состоит из деления значения коэффициента на стандартную ошибку .σ

Что меня смущает, так это то, что также известен как Z-оценка и указывает, насколько вероятно, что данное наблюдение приходит из нормального распределения (со средним нулем).X/σ



2
Возможно, это может быть наоборот, поскольку ответ на этот вопрос более развит.
Firebug

Ответы:


86

Оценки коэффициентов и перехватов в логистической регрессии (и любой GLM) находятся с помощью оценки максимального правдоподобия (MLE). Эти оценки обозначены с шляпой над параметрами, что - то вроде & thetas . Наш интересующий параметр обозначен θ 0, и обычно это 0, поскольку мы хотим проверить, отличается ли коэффициент от 0 или нет. Из асимптотической теории ОМП, мы знаем , что разница между & thetas и θ 0 будет приблизительно нормально распределены со средним 0 (подробности можно найти в любой математической статистике книги , такие как Ларри Вассермана все из статистики ). Напомним, что стандартные ошибки не что иное, какθ^θ0θ^θ0Стандартные отклонения статистики (Сокал и Рольф пишут в своей книге « Биометрия» : « статистика - это любая из многих вычисленных или оцененных статистических величин», например, среднее значение, медиана, стандартное отклонение, коэффициент корреляции, коэффициент регрессии, ...). Разделив нормальное распределение со средним 0 и стандартным отклонением его стандартное отклонение будет давать стандартное нормальное распределение со средним 0 и стандартное отклонение 1. Wald статистики определяется как (например , Вассермана (2006): Все статистики , страницы 153, 214 -215): W = ( β - β 0 )σ или W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
Вторая форма вытекает из того фактачто квадрат стандартного нормального распределения являетсяχ21-распределение с 1 степенью свободы (сумма двух квадратов стандартных нормальные распределения будетχ22-распределение с 2 степенями свободы и тд).
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-ценности. В R, посмотрите на этих двух примерах:

Логистическая регрессия

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Нормальная линейная регрессия (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Еще один связанный пост можно найти здесь .


1
Большое спасибо за этот хороший пост, который отвечает на все мои вопросы.
user695652

1
Таким образом, практически, что касается первой части вашего превосходного ответа: если бы по какой-то причине в качестве выходных данных у меня были бы отношение шансов и статистика Вальда, я мог бы тогда вычислить стандартную ошибку из них как: SE = (1 / Wald- статистика) * ln (ИЛИ) Это правильно? Спасибо!
Сандер В. ван дер Лаан

1
@ SanderW.vanderLaan Спасибо за ваш комментарий. Да, я верю, что это правильно. Если вы выполните логистическую регрессию, статистикой Вальда будет значение z.
COOLSerdash

2
Такой отличный ответ !! У меня есть некоторые предложения по пересмотру: я лично чувствую, что этот ответ смешивает детали со списками перфорации. Я бы поместил детали того, как линейная регрессия использует дисперсию невязок, в отдельный график.
Haitao Du

1
Также для параметра дисперсии и соединения с кодом R, может быть, мы можем открыть другой раздел или разделительную линию, чтобы поговорить о ней.
Haitao Du
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.