Формула для 95% доверительного интервала для


13

Я гуглил и искал по stats.stackexchange, но не могу найти формулу для расчета 95% доверительного интервала для значения для линейной регрессии. Кто-нибудь может это предоставить?R2

Еще лучше, скажем, я выполнил линейную регрессию ниже в R. Как бы я вычислил 95% доверительный интервал для значения используя код R.R2

lm_mtcars <- lm(mpg ~ wt, mtcars)

1
Хорошо, вы знаете, что соотношение между корреляцией и R 2 заключается в том, что вы возводите в квадрат коэффициент корреляции, чтобы получить R 2, так почему бы не рассчитать доверительный интервал для r, а затем возвести в квадрат нижнюю и верхнюю границы интервала? rR2R2r

1
@ZERO: это будет работать в простой линейной регрессии, то есть с одним предиктором и перехватом. Это не будет работать для множественной линейной регрессии с более чем одним предиктором.
Стефан Коласса

@StephanKolassa, очень верно! Я предполагаю, что я основывал это на его Rкоде, где есть только один регрессор, но это очень хороший момент для пояснения.


Например, вы можете использовать очень маленькую R-функцию github.com/mayer79/R-confidence-intervals-R-squared, основанную на свойствах нецентрального F-распределения.
Майкл М

Ответы:


16

Вы всегда можете загрузить его:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter & Bithell (2000, Статистика в медицине) предоставляют читаемое введение в начальную загрузку доверительных интервалов, хотя и не ориентированы специально на .R2


1
n=32k=1(0.546,0.960)2

Также стоит отметить, что вы можете получить другие типы доверительных интервалов (например, BCa) из дистрибутива с начальной загрузкой, используя boot.ci().
Джеффри Джирард

7

В R вы можете использовать CI.Rsq()функцию, предоставляемую психометрическим пакетом. Что касается формулы, которую он применяет, см. Cohen et al. (2003) , Прикладной множественный регрессионный / корреляционный анализ для поведенческих наук , с. 88:

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

R2±2SER2


3
(1R2)R2R2nk1>60k+1считает пересечение плюс количество независимых переменных.) Было бы полезно увидеть обработанный пример, поддерживаемый моделированием, потому что этот интервал выглядит слишком широким.
whuber

Согласно Уишарту (1931) формула не подходит для ненормальных распределений.
abukaj
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.