Вопрос предполагает сравнение трех связанных моделей. Чтобы сделать сравнение ясным, пусть будет зависимой переменной, пусть X ∈ { 1 , 2 , 3 } будет текущим кодом сообщества, и определим X 1 и X 2 как индикаторы сообществ 1 и 2 соответственно. (Это означает, что X 1 = 1 для сообщества 1 и X 1 = 0 для сообществ 2 и 3; X 2 = 1 для сообщества 2 и X 2 = 0YИкс∈ { 1 , 2 , 3 }Икс1Икс2Икс1= 1Икс1= 0Икс2= 1Икс2= 0 для сообществ 1 и 3.)
Текущий анализ может быть одним из следующих:
Y= α + βИкс+ ε(первая модель)
или же
Y= α + β1Икс1+ β2Икс2+ ε(вторая модель) .
В обоих случаях представляет собой набор одинаково распределенных независимых случайных величин с нулевым ожиданием. Вторая модель, скорее всего, предназначена, но первая модель будет соответствовать кодировке, описанной в вопросе.ε
Результатом регрессии OLS является набор подогнанных параметров (обозначенных «шляпами» на их символах) вместе с оценкой общей дисперсии ошибок. В первой модели есть один Т-тест для сравнения β к 0 . Во второй модели есть два t-критерия: один для сравнения ^ β 1 с 0 и другой для сравнения ^ β 2 с 0 . Поскольку вопрос содержит только один t-критерий, давайте начнем с изучения первой модели.β^0β1^0β2^0
Завершив , что β существенно отличается от 0 , мы можем сделать оценку Y = E [ α + β X + ε ] = α + β X для любого сообщества:β^0YE [α+βИкс+ ε ]α + βИкс
для сообщества 1 и оценка равна α + β ;Икс= 1α + β
для сообщества 2 и оценка равна α + 2 β ; иИкс= 2α + 2 β
для сообщества 3 и оценка равна α + 3 β . Икс= 3α + 3 β
В частности, первая модель заставляет эффекты сообщества находиться в арифметической прогрессии. Если кодирование сообщества предназначено как простой способ различения сообществ, это встроенное ограничение одинаково произвольно и, вероятно, неправильно.
Поучительно выполнить тот же подробный анализ предсказаний второй модели:
Для сообщества 1, где и X 2 = 0 , прогнозируемое значение Y равно α + β 1 . В частности,Икс1= 1Икс2= 0Yα + β1
Y( сообщество 1 ) = α + β1+ ε .
Для сообщества 2, где и X 2 = 1 , прогнозируемое значение Y равно α + β 2 . В частности,Икс1= 0Икс2= 1Yα + β2
Y( сообщество 2 ) = α + β2+ ε .
Для сообщества 3, где , прогнозируемое значение Y равно α . В частности,Икс1= Х2= 0Yα
Y( сообщество 3 ) = α + ε .
Три параметра эффективно дают второй модели полную свободу для оценки трех ожидаемых значений отдельно. Y Т-тесты оценивают ли (1) ; то есть, есть ли разница между сообществами 1 и 3; и (2) β 2 = 0 ; то есть, есть ли разница между общинами 2 и 3. Кроме того, можно проверить «контраст» β 2 - β 1 с т-тест , чтобы увидеть , различаются ли сообщества 2 и 1: это работает , потому что их разность ( α + β 2 ) - ( α +β1= 0β2= 0β2- β1 = β 2 - β 1 .( α + β2) - ( α + β1)β2- β1
Теперь мы можем оценить влияние трех отдельных регрессий. Они будут
Y( сообщество 1 ) = α1+ ε1,
Y( сообщество 2 ) = α2+ ε2,
Y( сообщество 3 ) = α3+ ε3,
Сравнивая это со второй моделью, мы видим, что должен совпадать с α + β 1 , α 2 должен совпадать с α + β 2 , а α 3 должен совпадать с α . Итак, с точки зрения гибкости подгонки параметров обе модели одинаково хороши. Тем не менее, предположения в этой модели о членах ошибки слабее. Все ε 1 должны быть независимыми и одинаково распределенными (iid); все ε 2 должны быть iid, и все ε 3 должны быть iid,α1α + β1α2α + β2α3αε1ε2ε3но ничего не предполагается относительно статистических отношений между отдельными регрессиями. Таким образом, отдельные регрессии обеспечивают дополнительную гибкость:
Эта дополнительная гибкость означает, что результаты t-теста для параметров, вероятно, будут отличаться между второй и третьей моделью. (Однако это не должно приводить к различным оценкам параметров.)
Чтобы увидеть, нужны ли отдельные регрессии , сделайте следующее:
Подойдет вторая модель. График остатков против сообщества, например, в виде ряда бок о бок, трио гистограмм или даже три вероятностных графика. Ищите доказательства различных форм распределения и особенно заметно различающихся отклонений. Если это доказательство отсутствует, вторая модель должна быть в порядке. Если он присутствует, отдельные регрессии оправданы.
Когда модели являются многомерными, то есть включают другие факторы, возможен аналогичный анализ с аналогичными (но более сложными) выводами. В общем, выполнение отдельных регрессий равносильно включению всех возможных двусторонних взаимодействий с переменной сообщества (закодировано как во второй модели, а не в первой) и допускает различные распределения ошибок для каждого сообщества.