Как правильно проверить существенные различия между коэффициентами?

18

Я надеюсь, что кто-то может помочь исправить ситуацию для меня. Скажем, я хочу проверить, существенно ли отличаются два набора коэффициентов регрессии друг от друга, с помощью следующей настройки:

$y_i = \alpha + \beta x_i + \epsilon_i$ , с 5 независимыми переменными.
2 группы, с примерно равными размерами $n_1, n_2$ (хотя это может варьироваться)
Тысячи подобных регрессий будут выполняться одновременно, поэтому необходимо выполнить некоторую коррекцию множественных гипотез.

Один из подходов, который мне предложили, - это использовать Z-тест:

$Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)}$

Еще один совет, который я видел на этой доске, - ввести фиктивную переменную для группировки и переписать модель следующим образом:

$y_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i$ , где $g$ - группирующая переменная, закодированная как 0, 1.

Мой вопрос: как эти два подхода различны (например, сделаны разные предположения, гибкость)? Является ли один более подходящим, чем другой? Я подозреваю, что это довольно просто, но любые разъяснения будут с благодарностью.

regression hypothesis-testing multiple-regression

— cashoes
источник

Я считаю, что ответы и комментарии к подобному вопросу могут дать некоторые разъяснения, которые вы ищете.

— whuber

Спасибо, что. Я был знаком с этим ответом. Из приведенного ниже обсуждения принятого ответа (и ваших комментариев там) у меня сложилось впечатление, что сравнение коэффициентов 2 отдельных подборок было неуместным. Применяется ли z-критерий к коэффициентам из отдельных подборок некорректно, или же кодирование фиктивной переменной просто проще и дает эквивалентный ответ?

— День

1

Пожалуйста, смотрите последний абзац моего ответа («Основное ограничение ...»). Z-тест действителен, если предположить, что

большие (в противном случае они используются при тестировании) и предполагаемые стандартные отклонения

не слишком отличаются друг от друга. Ни один из подходов не является наилучшим, когда стандартные отклонения сильно различаются (примерно, больше, чем соотношение 3: 1).

n_{i}

$n_i$

S E b_{i}

$SEb_i$

— whuber

13

Два подхода различаются.

Пусть оценочные стандартные ошибки двух регрессий равны и . Тогда, поскольку объединенная регрессия (со всеми взаимодействиями коэффициентов и фиктивных переменных) соответствует одним и тем же коэффициентам, она имеет те же невязки, откуда ее стандартная ошибка может быть вычислена как $s_1$ $s_2$

s = \sqrt{\frac{(n_{1} - p) s_{1}^{2} + (n_{2} - p) s_{2}^{2})}{n_{1} + n_{2} - 2 p}} .

$s = \sqrt{\frac{(n_1-p) s_1^2 + (n_2-p) s_2^2)}{n_1 + n_2 - 2 p}}.$

Число параметров равно в примере: пять наклонов и пересечение в каждой регрессии. $p$ $6$

Пусть оценивает параметр в одной регрессии, оценивает тот же параметр в другой регрессии, а оценивает их разность в комбинированной регрессии. Тогда их стандартные ошибки связаны с $b_1$ $b_2$ $b$

S E (b) = s \sqrt{(S E (b_{1}) / s_{1})^{2} + (S E (b_{2}) / s_{2})^{2}} .

$SE(b) = s \sqrt{(SE(b_1)/s_1)^2 + (SE(b_2)/s_2)^2}.$

Если вы еще не сделали объединенную регрессию, но имеете статистику только для отдельных регрессий, вставьте предыдущее уравнение для . Это будет знаменатель для t-теста. Очевидно, это не то же самое, что знаменатель, представленный в вопросе. $s$

Предположение, сделанное объединенной регрессией, состоит в том, что отклонения от остатков по существу одинаковы в обеих отдельных регрессиях. Однако, если это не так, z-тест тоже не будет хорошим (если только размеры выборки не велики): вы можете использовать тест CABF или t-тест Welch-Satterthwaite.

— Whuber
источник

9

Самый прямой способ проверить разницу в коэффициентах между двумя группами - это включить в регрессию термин взаимодействия , который почти соответствует тому, что вы описываете в своем вопросе. Модель, которую вы запустите, выглядит следующим образом:

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

Обратите внимание, что я включил групповую переменную в качестве отдельного регрессора в модель. В этой модели тест с нулевой гипотезой является проверкой того, что коэффициенты одинаковы между двумя группами. Чтобы увидеть это, сначала позвольте в приведенной выше модели. Затем мы получаем следующее уравнение для группы 0: $t$ $H_0: \delta = 0$ $g_i = 0$

$y_i = \alpha + \beta x_i + \varepsilon_i$

Теперь, если , то имеем: $g_i = 1$

$y_i = (\alpha + \gamma) + (\beta + \delta) x_i + \varepsilon_i$

$\delta$

— Мэтт Блэквелл
источник

Спасибо за исправление модели (я полагаю, что моя версия выше просто заставляет перехват быть одинаковым в обеих группах ...). Более того, будет ли это эквивалентно z-тесту, который я выложил выше?

— День

y_{i} = α + β x_{i} + γ g_{i} + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \varepsilon_i$

y_{i} = α + β x_{i} + γ g_{i} + δ (x_{i} \times g_{i}) + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

@ matt-blackwell это концептуально то же самое, что стратификация модели по каждому значению g? (т.е. b будет коэффициентом x, когда g = 0, и бета + дельта, когда g = 1) Хотя я понимаю, что стратификация не позволяет проводить статистическое сравнение.

— bobmcpop