Должен ли я проводить отдельные регрессии для каждого сообщества или сообщество может быть просто управляющей переменной в агрегированной модели?

11

Я использую модель OLS с непрерывной переменной индекса ресурса в качестве DV. Мои данные собраны из трех аналогичных сообществ в географической близости друг к другу. Несмотря на это, я подумал, что важно использовать сообщество в качестве управляющей переменной. Как оказалось, сообщество значимо на уровне 1% (t-оценка -4,52). Сообщество - это номинальная / категориальная переменная, закодированная как 1,2,3 для 1 из 3 различных сообществ.

Мой вопрос заключается в том, означает ли эта высокая степень значимости, что я должен проводить регрессию в сообществах индивидуально, а не как совокупность. Иначе, делает ли это использование сообщества в качестве управляющей переменной?

— cadamt
источник

Имеет ли смысл использовать иерархическую модель с сообществом в качестве случайного эффекта? Сообщества не являются вашей главной заботой, не так ли? Используя иерархическую модель, вы разделяете силу.

— Уэйн

14

Вопрос предполагает сравнение трех связанных моделей. Чтобы сделать сравнение ясным, пусть будет зависимой переменной, пусть будет текущим кодом сообщества, и определим и как индикаторы сообществ 1 и 2 соответственно. (Это означает, что для сообщества 1 и для сообществ 2 и 3; для сообщества 2 и $Y$ $X \in \{1,2,3\}$ $X_1$ $X_2$ $X_1=1$ $X_1=0$ $X_2=1$ $X_2=0$ для сообществ 1 и 3.)

Текущий анализ может быть одним из следующих:

Y = α + β X + ε (first model)

$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$

или же

Y = α + β_{1} X_{1} + β_{2} X_{2} + ε (second model) .

$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$

В обоих случаях представляет собой набор одинаково распределенных независимых случайных величин с нулевым ожиданием. Вторая модель, скорее всего, предназначена, но первая модель будет соответствовать кодировке, описанной в вопросе. $\varepsilon$

Результатом регрессии OLS является набор подогнанных параметров (обозначенных «шляпами» на их символах) вместе с оценкой общей дисперсии ошибок. В первой модели есть один Т-тест для сравнения к . Во второй модели есть два t-критерия: один для сравнения с и другой для сравнения с . Поскольку вопрос содержит только один t-критерий, давайте начнем с изучения первой модели. $\hat{\beta}$ $0$ $\hat{\beta_1}$ $0$ $\hat{\beta_2}$ $0$

Завершив , что существенно отличается от , мы можем сделать оценку = = для любого сообщества: $\hat{\beta}$ $0$ $Y$ $\mathbb{E}[\alpha + \beta X + \varepsilon]$ $\alpha + \beta X$

для сообщества 1 и оценка равна ; $X=1$ $\alpha+\beta$

для сообщества 2 и оценка равна ; и $X=2$ $\alpha+2\beta$

для сообщества 3 и оценка равна . $X=3$ $\alpha+3\beta$

В частности, первая модель заставляет эффекты сообщества находиться в арифметической прогрессии. Если кодирование сообщества предназначено как простой способ различения сообществ, это встроенное ограничение одинаково произвольно и, вероятно, неправильно.

Поучительно выполнить тот же подробный анализ предсказаний второй модели:

Для сообщества 1, где и , прогнозируемое значение равно . В частности, $X_1=1$ $X_2=0$ $Y$ $\alpha + \beta_1$

Y (community 1) = α + β_{1} + ε .

$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$

Для сообщества 2, где и , прогнозируемое значение равно . В частности, $X_1=0$ $X_2=1$ $Y$ $\alpha+\beta_2$

Y (community 2) = α + β_{2} + ε .

$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$

Для сообщества 3, где , прогнозируемое значение равно . В частности, $X_1=X_2=0$ $Y$ $\alpha$

Y (community 3) = α + ε .

$Y(\text{community 3}) = \alpha + \varepsilon.$

Три параметра эффективно дают второй модели полную свободу для оценки трех ожидаемых значений отдельно. $Y$ Т-тесты оценивают ли (1) ; то есть, есть ли разница между сообществами 1 и 3; и (2) ; то есть, есть ли разница между общинами 2 и 3. Кроме того, можно проверить «контраст» с т-тест , чтобы увидеть , различаются ли сообщества 2 и 1: это работает , потому что их разность $\beta_1=0$ $\beta_2=0$ $\beta_2-\beta_1$ = . $(\alpha + \beta_2) - (\alpha + \beta_1)$ $\beta_2-\beta_1$

Теперь мы можем оценить влияние трех отдельных регрессий. Они будут

Y (community 1) = α_{1} + ε_{1},

$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$

Y (community 2) = α_{2} + ε_{2},

$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$

Y (community 3) = α_{3} + ε_{3} .

$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$

Сравнивая это со второй моделью, мы видим, что должен совпадать с , должен совпадать с , а должен совпадать с . Итак, с точки зрения гибкости подгонки параметров обе модели одинаково хороши. Тем не менее, предположения в этой модели о членах ошибки слабее. Все должны быть независимыми и одинаково распределенными (iid); все должны быть iid, и все должны быть iid, $\alpha_1$ $\alpha+\beta_1$ $\alpha_2$ $\alpha+\beta_2$ $\alpha_3$ $\alpha$ $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$ но ничего не предполагается относительно статистических отношений между отдельными регрессиями. Таким образом, отдельные регрессии обеспечивают дополнительную гибкость:

$\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$
$\varepsilon_i$ $\varepsilon_j$

Эта дополнительная гибкость означает, что результаты t-теста для параметров, вероятно, будут отличаться между второй и третьей моделью. (Однако это не должно приводить к различным оценкам параметров.)

Чтобы увидеть, нужны ли отдельные регрессии , сделайте следующее:

Подойдет вторая модель. График остатков против сообщества, например, в виде ряда бок о бок, трио гистограмм или даже три вероятностных графика. Ищите доказательства различных форм распределения и особенно заметно различающихся отклонений. Если это доказательство отсутствует, вторая модель должна быть в порядке. Если он присутствует, отдельные регрессии оправданы.

Когда модели являются многомерными, то есть включают другие факторы, возможен аналогичный анализ с аналогичными (но более сложными) выводами. В общем, выполнение отдельных регрессий равносильно включению всех возможных двусторонних взаимодействий с переменной сообщества (закодировано как во второй модели, а не в первой) и допускает различные распределения ошибок для каждого сообщества.

— Whuber
источник

-3

Выбор модели (ИМХО) может быть рекомендован. Поскольку сложные модели (отдельный уклон) будут иметь более строгий штраф, таким образом, более сжатые и легкие для интерпретации модели будут «лучше».

— Иван Кшнясев
источник

1

Не совсем понятно, что вы рекомендуете здесь, или как эта таблица связана с этим.

— Scortchi - Восстановить Монику