Как получить доверительный интервал по изменению r-квадрата населения

Ради простого примера предположим, что есть две модели линейной регрессии

Модель 1 имеет три предсказатели, x1a, x2b, иx2c
Модель 2 имеет три предиктора из модели 1 и два дополнительных предиктора x2aиx2b

Существует уравнение регрессии населения, где объясняется дисперсия населения для Модели 1 и для Модели 2. Инкрементная дисперсия, объясненная Моделью 2 в населении, равна $\rho^2_{(1)}$ $\rho^2_{(2)}$ $\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)}$

Я заинтересован в получении стандартных ошибок и доверительных интервалов для оценки . Хотя в примере задействованы 3 и 2 предиктора соответственно, мой исследовательский интерес касается широкого диапазона различного числа предикторов (например, 5 и 30). Моей первой мыслью было использовать в качестве оценщика и загрузить его, но я не был уверен, будет ли это подойдет. $\Delta\rho^2$ $\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}$

Вопросов

Является ли разумной оценкой ? $\Delta r^2_{adj}$ $\Delta \rho^2$
Как получить доверительный интервал для изменения r-квадрата населения (т. Е. )? $\Delta\rho^2$
Подойдет ли начальная загрузка для расчета доверительного интервала? $\Delta\rho^2$

Любые ссылки на симуляции или опубликованную литературу также приветствуются.

Пример кода

Если это поможет, я создал небольшой набор данных моделирования в R, который можно использовать для демонстрации ответа:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Причина для беспокойства с начальной загрузкой

Я запустил начальную загрузку некоторых данных с примерно 300 случаями, 5 предикторами в простой модели и 30 предикторами в полной модели. В то время как выборочная оценка с использованием скорректированной разности r-квадрата была 0.116, увеличенный доверительный интервал был в основном больше CI95% (от 0,095 до 0,214), а среднее значение бутстрапов не было близко к выборочной оценке. Скорее среднее значение бустрепированных выборок, по-видимому, было сосредоточено на выборочной оценке разницы между r-квадратами в выборке. Это несмотря на то, что я использовал выборочные r-квадраты для оценки разницы.

Интересно, что я попробовал альтернативный способ вычисления как $\Delta\rho^2$

рассчитать изменение r-квадрата образца
отрегулируйте изменение r-квадрата образца, используя стандартную формулу R-квадрата

Применительно к выборочным данным это уменьшило оценку до, но доверительные интервалы казались подходящими для метода, который я упомянул первым, CI95% (.062, .179) со средним значением .118. $\Delta \rho^2$ .082

В целом, я обеспокоен тем, что при начальной загрузке предполагается, что выборка представляет собой совокупность, и, следовательно, оценки, которые уменьшают для переоснащения, могут не работать надлежащим образом.

regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

— Джером англим
источник

«Тем не менее, я обеспокоен тем, что загрузка такого скорректированного значения для населения может быть проблематичной». -- Почему?

— январь

@ Январь Я отредактировал вопрос и попытался сформулировать свою озабоченность по поводу начальной загрузки с откорректированным r-квадратом.

— Джером Энглим

Какова численность населения R в квадрате ? Я посмотрел на приведенное здесь определение, но для меня дисперсия не имеет смысла, потому что не распределены одинаково.

σ_{y}^{2}

$\sigma^2_y$

y_{i}

$y_i$

— Стефан Лоран

@ StéphaneLaurent это процент дисперсии, объясняемый в популяции уравнением регрессии населения. Или вы можете определить это асимптотически как пропорцию дисперсии, объясненную в вашей выборке, когда размер выборки приближается к бесконечности. Смотрите также этот ответ относительно непредвзятых оценок населения r-квадрат . Это особенно актуально в психологии, где мы часто больше заинтересованы в истинных отношениях, чем в действительности применяем наше оценочное уравнение предсказания.

— Джером Энглим

F-тест можно рассматривать как проверку гипотезы . Можно ли это использовать для получения стандартной ошибки и доверительного интервала, который вы ищете?

Δ ρ^{2} = 0

$\Delta\rho^2 = 0$

— Мартен Буис

Ответы:

Население $R^2$

Я сначала пытаюсь понять определение популяции R-квадрат .

Цитирую ваш комментарий:

Или вы можете определить это асимптотически как пропорцию дисперсии, объясненную в вашей выборке, когда размер выборки приближается к бесконечности.

Я думаю, вы имеете в виду, что это предел выборки когда каждый повторяет модель бесконечное число раз (с теми же предикторами в каждом повторении). $R^2$

Так какова формула для асимптотического значения выборки ? Напишите свою линейную модель как в https://stats.stackexchange.com/a/58133/8402 , и используйте те же обозначения, что и эта ссылка. Затем можно проверить, что образец отправляется в когда кто-то повторяет модель бесконечно много раз. $R^²$ $\boxed{Y=\mu+\sigma G}$
$R^2$ $\boxed{popR^2:=\dfrac{\lambda}{n+\lambda}}$ $Y=\mu+\sigma G$

Как пример:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

Население подмодели $R^2$

Теперь предположим, что модель с и рассмотрим подмодель . $\boxed{Y=\mu+\sigma G}$ $H_1\colon\mu \in W_1$ $H_0\colon \mu \in W_0$

Тогда я сказал выше, что популяция модели является где и и тогда у каждого просто есть . $R^2$ $H_1$ $\boxed{popR^2_1:=\dfrac{\lambda_1}{n+\lambda_1}}$ $\boxed{\lambda_1=\frac{{\Vert P_{Z_1} \mu\Vert}^2}{\sigma^2}}$ $Z_1=[1]^\perp \cap W_1$ ${\Vert P_{Z_1} \mu\Vert}^2=\sum(\mu_i - \bar \mu)^2$

Теперь вы определить население из подмодели как асимптотическое значение , рассчитанных по модели но при обобщенном предположении модели ? Асимптотическое значение (если оно есть) кажется труднее найти. $R^2$ $H_0$ $R^2$ $H_0$ $H_1$

— Стефан Лоран
источник

Спасибо Стефан. Мне нужно подумать о том, что вы говорите. Что касается вашего вопроса. Я предполагаю, что истинный процесс генерирования данных неизвестен, но он одинаков для обеих моделей, но существует истинная пропорция дисперсии, объясняемая линейной регрессией в модели 1 и модели 2.

— Jeromy Anglim

@JeromyAnglim Формула (A3) этой статьи является частным случаем моей формулы для односторонней модели ANOVA. Таким образом, моя формула должна быть общим определением населения , но это не то, что вы используете в своем ОП.

R^{2}

$R^2$

— Стефан Лоран

@JeromyAnglim Исследование этой статьи, кажется, близко к тому, что вы ищете (со случайными предикторами).

— Стефан Лоран

Спасибо. Бумага Альгины, Кесельмана и Пенфилда выглядит очень полезной. Я добавил несколько комментариев к моему ответу об этом.

— Jeromy Anglim

@JeromyAnglim Итак, каково предположение о предикторах? Они генерируются в соответствии с многомерным распределением Гаусса?

— Стефан Лоран

Вместо того, чтобы отвечать на вопрос, который вы задали, я собираюсь спросить, почему вы задаете этот вопрос. Я полагаю, вы хотите знать,

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

по крайней мере так же хорошо, как

mod.large <- lm(y ~ ., data=x)

объясняя y. Поскольку эти модели являются вложенными, очевидный способ ответить на этот вопрос, по-видимому, состоит в том, чтобы выполнить анализ отклонений, сравнивая их, так же, как вы можете выполнить анализ отклонений для двух GLM, например

anova(mod.small, mod.large)

Тогда вы могли бы использовать выборку улучшения R-квадрата между моделями, как свою лучшую догадку о том, каким будет улучшение соответствия в популяции, всегда предполагая, что вы можете понять R-квадрат популяции. Лично я не уверен, что могу, но с этим это не имеет значения в любом случае.

В более общем смысле, если вас интересует количество популяции, вы, вероятно, заинтересованы в обобщении, поэтому мера подбора выборки - это не совсем то, что вам нужно, как бы «исправлено». Например, перекрестная проверка некоторого количества, которое оценивает вид и количество фактических ошибок, которые вы могли бы ожидать сделать из выборки, например MSE, может показаться тем, что вы хотите.

Но вполне возможно, что я что-то здесь упускаю ...

— conjugateprior
источник

Я ценю ваш ответ, и это может быть хорошим советом для других. Но мой исследовательский контекст означает, что меня законно интересует площадь Дельта-Ро. В то время как большинство статистиков часто больше заботятся о предсказательной полезности модели (например, перекрестно проверенная дельта-квадрат), я ученый-психолог и особенно заинтересован в свойстве населения. Кроме того, меня не интересует статистическая значимость улучшения. Я заинтересован в размере улучшения. И я считаю, что дельта-г-квадрат является полезной метрикой для индексации такого размера улучшения.

— Jeromy Anglim

Что касается MSE, в различных исследованиях по психологии используются меры по очень разным показателям. Таким образом, существует притяжение, правильное или неправильное, к стандартизированным мерам, таким как r-квадрат.

— Jeromy Anglim

Достаточно справедливо, особенно на MSE. Меня по-прежнему немного смущает интерес к самозагрузке и выводам населения, но отсутствие интереса к тестированию, поскольку, возможно, наивно, эти проблемы кажутся эквивалентными по-разному. У меня также возникают трудности с четким разграничением выборочного прогнозирования от вывода для популяции, но, вероятно, это мешает байесианству до кофееного колена (где прогнозирование - просто еще одна проблема вывода населения).

— conjugateprior

Возможно, я говорил немного быстро. В моем контексте исследований часто имеется много доказательств того, что квадрат дельта-ро больше нуля. Интересует вопрос, какова степень роста. То есть это тривиальное увеличение или теоретически значимое увеличение. Таким образом, достоверность или достоверные интервалы дают мне оценку неопределенности вокруг этого увеличения. Я еще не примирил то, что я делаю здесь, с моим пониманием байесовской статистики, но я бы хотел.

— Jeromy Anglim

Следующее представляет несколько возможностей для вычисления доверительных интервалов на . $\rho^2$

Двойной отрегулированный квадратный бутстрап

Мое настоящее лучшее предположение при ответе - сделать двойной корректировкой r-квадрат начальной загрузки. Я реализовал технику. Это включает в себя следующее:

Создайте набор образцов начальной загрузки из текущих данных.
Для каждого загруженного образца:
- рассчитать первый скорректированный R-квадрат для двух моделей
- вычислить второй скорректированный квадрат R на скорректированных значениях квадрата из предыдущего шага
- Вычтите model2 из вторых скорректированных значений r-квадрата model1, чтобы получить оценку . $\Delta \rho^2$

Обоснование состоит в том, что первый скорректированный r-квадрат устраняет смещение, возникающее при начальной загрузке (т. Е. При начальной загрузке предполагается, что выборочный r-квадрат является r-квадратом населения). Второй откорректированный r-квадрат выполняет стандартную коррекцию, которая применяется к нормальной выборке для оценки r-квадрата населения.

На данный момент все, что я могу видеть, это то, что применение этого алгоритма генерирует оценки, которые кажутся правильными (то есть среднее значение theta_hat в начальной загрузке очень близко к образцу theta_hat). Стандартная ошибка совпадает с моей интуицией. Я еще не проверял, обеспечивает ли он надлежащее частое освещение там, где известен процесс генерирования данных, и я также не совсем уверен, как аргумент может быть оправдан из первых принципов.

Если кто-нибудь увидит какие-либо причины, почему такой подход будет проблематичным, я был бы рад услышать об этом.

Моделирование Альгины и др.

Стефан упомянул статью Альгины, Кесельмана и Пенфилда. Они выполнили имитационное исследование для изучения охвата 95% доверительного интервала бутстреппинга и асимптотических методов оценки . Их методы начальной загрузки включали только одно применение скорректированного r-квадрата, а не двойную корректировку r-квадрата, о которой я упоминал выше. Они обнаружили, что оценки начальной загрузки обеспечивали хорошее покрытие только тогда, когда число дополнительных предикторов в полной модели составляло один или, возможно, два. Я полагаю, что это связано с тем, что с увеличением числа предикторов увеличивается различие между одиночной и двойной скорректированной начальной загрузкой. $\Delta \rho^2$

Smithson (2001) об использовании параметра нецентральности

Смитсон (2001) обсуждает расчет доверительных интервалов для частичного на основе параметра нецентральности. См. Страницы 615 и 616 в частности. Он предполагает, что «легко построить КИ для и частичного но не для квадратичной полупартийной корреляции». (p.615) $R^2$ $f^2$ $R^2$

Ссылки

Альгина, Дж., Кесельман, Х.Дж., Пенфилд, Р.Д. Доверительные интервалы для квадрата коэффициента многократной полупариальной корреляции. PDF
Смитсон, М. (2001). Правильные доверительные интервалы для различных размеров и параметров регрессионного эффекта: Важность нецентральных распределений в вычислительных интервалах. Образовательные и психологические измерения, 61 (4), 605-632.

— Джером англим
источник

Кажется, что никто здесь (включая вас) не знает определения вашей популяции в R-квадрате. Следовательно ИМХО это серьезно проблемный подход.

— Стефан Лоран

@ StéphaneLaurent Спасибо за это. Признаюсь, что до этого момента я не рассматривал r-квадрат населения как свойство раздора. Например, я мог бы предложить процесс генерирования данных, и был бы r-квадрат, к которому приблизился бы, когда размер моей имитационной выборки приближался к бесконечности. И также я предполагаю, что для моих данных существует процесс генерирования данных, и, следовательно, если бы можно было получить бесконечную выборку, я мог бы рассчитать истинную r-квадрат населения.

— Jeromy Anglim

Да, но у меня сложилось впечатление, что вы также предполагаете процесс генерации для предикторов. Я не могу понять, как это могло бы иметь смысл для общей линейной модели.

— Стефан Лоран

Как получить доверительный интервал по изменению r-квадрата населения

Вопросов

Пример кода

Причина для беспокойства с начальной загрузкой

Населениер2R2R^2

Население подмоделир2R2R^2

Двойной отрегулированный квадратный бутстрап

Моделирование Альгины и др.

Smithson (2001) об использовании параметра нецентральности

Ссылки

Население $R^2$

Население подмодели $R^2$