Ради простого примера предположим, что есть две модели линейной регрессии
- Модель 1 имеет три предсказатели,
x1a
,x2b
, иx2c
- Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора
x2a
иx2b
Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и для Модели 2. Инкрементная дисперсия, объясненная Моделью 2 в населении, равна ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Я заинтересован в получении стандартных ошибок и доверительных интервалов для оценки . Хотя в примере задействованы 3 и 2 предиктора соответственно, мой исследовательский интерес касается широкого диапазона различного числа предикторов (например, 5 и 30). Моей первой мыслью было использовать в качестве оценщика и загрузить его, но я не был уверен, будет ли это подойдет. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Вопросов
- Является ли разумной оценкой ? Д р 2
- Как получить доверительный интервал для изменения r-квадрата населения (т. Е. )?
- Подойдет ли начальная загрузка для расчета доверительного интервала?
Любые ссылки на симуляции или опубликованную литературу также приветствуются.
Пример кода
Если это поможет, я создал небольшой набор данных моделирования в R, который можно использовать для демонстрации ответа:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Причина для беспокойства с начальной загрузкой
Я запустил начальную загрузку некоторых данных с примерно 300 случаями, 5 предикторами в простой модели и 30 предикторами в полной модели. В то время как выборочная оценка с использованием скорректированной разности r-квадрата была 0.116
, увеличенный доверительный интервал был в основном больше CI95% (от 0,095 до 0,214), а среднее значение бутстрапов не было близко к выборочной оценке. Скорее среднее значение бустрепированных выборок, по-видимому, было сосредоточено на выборочной оценке разницы между r-квадратами в выборке. Это несмотря на то, что я использовал выборочные r-квадраты для оценки разницы.
Интересно, что я попробовал альтернативный способ вычисления как
- рассчитать изменение r-квадрата образца
- отрегулируйте изменение r-квадрата образца, используя стандартную формулу R-квадрата
Применительно к выборочным данным это уменьшило оценку до, но доверительные интервалы казались подходящими для метода, который я упомянул первым, CI95% (.062, .179) со средним значением .118..082
В целом, я обеспокоен тем, что при начальной загрузке предполагается, что выборка представляет собой совокупность, и, следовательно, оценки, которые уменьшают для переоснащения, могут не работать надлежащим образом.