Совместная модель с условиями взаимодействия и отдельными регрессиями для группового сравнения


13

Собрав ценные отзывы о предыдущих вопросах и обсуждениях, я поставил следующий вопрос: предположим, что цель состоит в том, чтобы выявить различия в эффектах в двух группах, например, мужчины и женщины. Есть два способа сделать это:

  1. запустить две отдельные регрессии для двух групп и использовать тест Вальда, чтобы отклонить (или нет) нулевую гипотезу : , где - коэффициент одного IV в мужской регрессии, а - коэффициент того же самого IV в женской регрессии.b 1 - b 2 = 0 b 1 b 2H0b1b2=0b1b2

  2. объедините две группы вместе и запустите совместную модель, включив в себя гендерный манекен и термин взаимодействия (IV * гендерный манекен). Тогда обнаружение группового эффекта будет основано на признаке взаимодействия и t-критерия значимости.

Что если Ho отклоняется в случае (1), то есть различие в группе значимо, но коэффициент члена взаимодействия в случае (2) статистически незначим, то есть различие в группе несущественно. Или, наоборот, Ho не отклоняется в случае (1), а член взаимодействия имеет значение в случае (2). Я заканчивал с этим результатом несколько раз, и мне было интересно, какой результат будет более надежным, и какова причина этого противоречия.

Большое спасибо!


1
Разница между процедурами заключается в том, что для обеих групп предполагается одинаковая дисперсия. Отдельный анализ предполагает разные отклонения.
вероятностная

Большое спасибо! Знаете ли вы, пожалуйста, какие-либо ссылки, обсуждающие проблему отклонений при сравнении разных моделей?
Bill718

Ответы:


7

Первая модель будет полностью взаимодействовать с полом со всеми другими ковариатами в модели. По сути, эффект каждого ковариата (b2, b3 ... bn). Во второй модели влияние пола зависит только от вашего IV. Итак, если у вас больше ковариат, чем только IV и пол, это может привести к несколько иным результатам.

Если у вас есть только два ковариата, есть документированные случаи, когда разница в максимизации между тестом Вальда и тестом отношения правдоподобия приводит к разным ответам (см. Больше в Википедии ).

По своему опыту я стараюсь руководствоваться теорией. Если существует доминирующая теория, предполагающая, что пол будет взаимодействовать только с IV, но не с другими ковариатами, я бы пошел с частичным взаимодействием.


Благодаря! Да, на самом деле существуют различные ковариаты, а не только один IV, я просто упомянул один IV в вопросе для простоты. Дело в том, что нет сильной теории, которая могла бы поддерживать взаимодействие между полом и определенными ковариатами, это исследовательский анализ, поэтому мне нужно экспериментировать со многими взаимодействиями и подбором моделей; исходная модель содержит 30 предикторов ...
Bill718

@ Bill718 Кроме того, отдельные модели будут иметь различный перехват, в то время как отдельная модель не будет, если только вы не укажете только пол в качестве дополнительного IV (а не просто как взаимодействие).
Роберт Кубрик

5

Каждый раз, когда для проверки конкретной гипотезы используются две разные процедуры, будут разные значения p. Сказать, что одно имеет значение, а другое - не просто принятие черно-белого решения на уровне 0,05. Если один тест дает значение р 0,03, а другой скажет 0,07, я бы не назвал результаты противоречивыми. Если вы будете настолько строги в размышлениях о значении, то легко иметь ситуацию (i) или (ii), когда имеет значение значение совета директоров.

Как я упоминал в ответ на предыдущий вопрос, я предпочитаю искать взаимодействие, чтобы сделать одну комбинированную регрессию.


Да, это правда, что комбинированная регрессия, по-видимому, работает лучше, по крайней мере, в моем случае, и это очень гибкий метод, поскольку кто-то может попытаться использовать различные взаимодействия и подходящие модели. Я просто хотел, скажем, «статистическим» любопытством, скажем так Чтобы выяснить, в чем причина столь разных результатов. Что касается значений р, я слышал, что некоторые люди принимают значение только на уровне = 0,5% или менее. Я более гибок, используя уровень = 1%, но большая головная боль возникает, когда p-значения совершенно разные.
Bill718

Например, я видел исследования, в которых один IV очень важен, когда используется упорядоченный логит модет, а тот же самый IV становится незначительным, когда применяется OLS. Таким образом, в этом случае объяснение результатов может быть немного сложным. Большое спасибо за ваши комментарии и отзывы!
Bill718

+1, точка около отлично. 0.070.03
gung - Восстановить Монику

2

Во втором случае стандартное программное обеспечение будет предлагать вам t-стат с p-значениями t-студента, тогда как в первом случае тесты Вальда могут иметь два варианта. При допущении нормальности ошибок статистика Вальда следует точной статистике Фишера (которая эквивалентна t-стату, так как предполагает нормальность ошибки). В то время как при асимптотической нормальности статистика Вальда следует распределению Chi2 (которое аналогично t-стату после асимптотически нормального распределения) Какое распределение вы предполагаете? В зависимости от этого ваши p-значения рискуют дать вам разные результаты.

В учебниках вы найдете, что для двухсторонних одиночных тестов (один параметр) статистика t-student и Fisher эквивалентна.

Если ваша выборка не велика, то сравнение значений chi2 и t-stat даст разные результаты наверняка. В этом случае допущение асимптотического распределения не будет разумным. Если ваша выборка довольно мала, то предполагается, что нормальность кажется более разумной, это подразумевает значения t-stat и Fisher для случая 2 и 1 соответственно.


Действительно, у меня есть две выборки неравного размера, первая имеет 3000 наблюдений, а вторая - относительно небольшая, 500 наблюдений. И программное обеспечение сообщает хи-квадрат при вычислении статистики Вальда. Итак, похоже, что это и есть причина расхождения. Хотя оба образца обычно распределяются, особенно в случае большого образца. Большое спасибо!
Bill718

1
Мне жаль вас обманывать, но неравные размеры выборки не проблема. Кроме того, ваш выглядит как большой образец для меня. поэтому обе процедуры должны давать схожие результаты. Я заметил, что @probabilityislogic сделал хорошую мысль. Использование одного объединенного образца предполагает равные остаточные отклонения, что может стать источником неоднородности. Не знаю, как вы реализуете отдельную процедуру регрессии, но легко ошибиться, если вы сами вычисляете статистику. Это делает объединенную регрессию безопасным прямым подходом.
JDav

1
Чтобы решить проблему неравных отклонений между группами (гетероскедастичность), попробуйте оценщик дисперсии белого (иначе говоря, Newey-west, Sandwich или Robust, если вы используете stata). Этот подход исправляет для неизвестных типов гетероскедентности.
JDav

О, хорошо, я вижу, на самом деле наблюдения в выборке происходят из разных регионов страны, так что вполне возможно, что существуют проблемы неоднородности!
Bill718
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.