Как проверить, модерируется ли коэффициент регрессии переменной группировки?

У меня есть регрессия, проведенная в двух группах выборки на основе модерирующей переменной (скажем, пола). Я делаю простой тест на смягчающий эффект, проверяя, потеряна ли значимость регрессии в одном наборе, а в другом.

Q1: приведенный выше метод действителен, не так ли?

Q2: уровень достоверности моего исследования установлен на уровне 95%. Для одной группы регрессия значима на уровне .000. С другой стороны, оно значимо на уровне 0,038. Поэтому я считаю, что я должен принять обе регрессии как значимые, и что эффект замедления отсутствует. Принятие регрессии является значительным, в то время как доказано, что оно не в 0,01. Я вызываю ошибку I типа (принимая ложный аргумент)?

regression type-i-and-ii-errors interaction

— скорпион
источник

Ваш метод, по-видимому, не отвечает на этот вопрос, предполагая, что «эффект смягчения» - это изменение одного или нескольких коэффициентов регрессии между двумя группами. Критерии значимости в регрессии оценивают, являются ли коэффициенты ненулевыми. Сравнение значений р в двух регрессиях мало что говорит (если вообще что-то) о различиях в этих коэффициентах между двумя выборками.

Вместо этого, представьте пол как фиктивную переменную и взаимодействуйте со всеми интересующими коэффициентами. Затем проверьте на значимость связанных коэффициентов.

Например, в простейшем случае (с одной независимой переменной) ваши данные могут быть выражены в виде списка кортежей, где - это роды, закодированные как и . Модель для пола есть $(x_i, y_i, g_i)$ $g_i$ $0$ $1$ $0$

Y_{я} знак равно α_{0} + β_{0} {Икс}_{я} + ε_{я}

$y_i = \alpha_0 + \beta_0 x_i + \varepsilon_i$

(где индексирует данные , для которых ) и модель для пола является $i$ $g_i = 0$ $1$

Y_{я} знак равно α_{1} + β_{1} {Икс}_{я} + ε_{я}

$y_i = \alpha_1 + \beta_1 x_i + \varepsilon_i$

(где индексирует данные, для которых ). Параметры , , , и . Ошибки являются . Давайте предположим, что они независимы и одинаково распределены с нулевым средним. Комбинированная модель для проверки разницы в наклонах ( ) может быть записана как $i$ $g_i = 1$ $\alpha_0$ $\alpha_1$ $\beta_0$ $\beta_1$ $\varepsilon_i$ $\beta$

Y_{я} знак равно α + β_{0} {Икс}_{я} + (β_{1} - β_{0}) ({Икс}_{я} г_{я}) + ε_{я}

$y_i = \alpha + \beta_0 x_i + (\beta_1 - \beta_0) (x_i g_i) + \varepsilon_i$

(где охватывает все данные), потому что когда вы устанавливаете последний член выпадает, давая первой модели с , а когда вы устанавливаете два множителя объединяются, чтобы дать , что дает вторую модель с . Таким образом, вы можете проверить, одинаковы ли наклоны («эффект замедления»), подгоняя модель $i$ $g_i=0$ $\alpha = \alpha_0$ $g_i=1$ $x_i$ $\beta_1$ $\alpha = \alpha_1$

Y_{я} знак равно α + β {Икс}_{я} + γ ({Икс}_{я} г_{я}) + ε_{я}

$y_i = \alpha + \beta x_i + \gamma (x_i g_i) + \varepsilon_i$

и тестирование ли оценочный модераторы размер , равен нуль. Если вы не уверены, что перехваты будут одинаковыми, включите четвертый термин: $\hat{\gamma}$

Y_{я} знак равно α + δ г_{я} + β {Икс}_{я} + γ ({Икс}_{я} г_{я}) + ε_{я},

$y_i = \alpha + \delta g_i + \beta x_i + \gamma (x_i g_i) + \varepsilon_i.$

Вы не обязательно должны проверить , является ли равен нулю, если это не представляет никакого интереса: он включен , чтобы отдельные линейные припадки в двух полов , не заставляя их иметь тот же перехватывать. $\hat{\delta}$

Основным ограничением этого подхода является предположение о том , что дисперсии ошибок одинаковы для обоих полов. Если нет, вам необходимо включить эту возможность, а это требует немного больше работы с программным обеспечением, чтобы соответствовать модели, и глубже задуматься о том, как проверить значимость коэффициентов. $\varepsilon_i$

— Whuber
источник

Спасибо, я могу понять, как это работает. Этот метод работает, если у меня есть несколько модерирующих переменных? Скажем, например, регион (сельский / городской), уровень образования (высшее образование / нет)? Могу ли я добавить дополнительные фиктивные переменные и проверить эффект?

— скорпион

@whuber, я иногда сталкиваюсь с функционально схожими ситуациями, в которых аналитик просто разбивает выборку на две группы, использует один и тот же набор независимых переменных для обеих групп и просто качественно сравнивает коэффициенты. Есть ли какие-то преимущества в той ситуации, которую я только что описал, по сравнению с этой формулой использования эффектов взаимодействия?

— Энди W

@ Andy Без какого-либо намерения казаться критичным или осуждающим, единственное преимущество, которое я могу придумать для качественного метода, состоит в том, что он не предъявляет требований к пониманию или компетентности аналитика: это делает его доступным для большего количества людей. Качественный подход чреват трудностями. Например, могут быть большие очевидные различия между склонами и пересечениями только по случайности. Качественная оценка только коэффициентов не сможет отличить эту ситуацию от реальных последствий.

— whuber

@whuber, моя первоначальная мысль была такой же, и я недавно дал то же самое предложение коллеге, который проигнорировал это предложение ради простоты (как вы намекали). Я подумал, что, возможно, комментарий о предположении, что отклонения ошибок одинаковы для обоих полов, может сделать двухмодельный подход более подходящим, учитывая, что это предположение нарушается.

— Энди W

@ Andy Да, но возможность различных отклонений не увеличивает ценность не качественного сравнения. Скорее, это потребовало бы более детального количественного сравнения оценок параметров. Например, в качестве грубого (но информативного) приближения можно выполнить вариант t-критерия CABF или Satterthwaite, основанный на оцененных дисперсиях ошибок и их степенях свободы. Даже визуальное исследование хорошо построенной диаграммы рассеяния было бы легко сделать и гораздо более информативным, чем простое сравнение коэффициентов регрессии.

— whuber

-1

Я предполагаю, что модерирование группирующей переменной будет одинаково хорошо работать при сравнении коэффициентов регрессии для независимых волн поперечных данных (например, год1, год2 и год3 как группа1, группа2 и группа3)?

— bloodnut
источник