Как регрессия, t-критерий и ANOVA являются всеми версиями общей линейной модели?


49

Ответы:


47

Учтите, что все они могут быть записаны как уравнение регрессии (возможно, с немного отличающимися интерпретациями, чем их традиционные формы).

Регрессия:

Yзнак равноβ0+β1Икс(Непрерывный)+εгде ε~N(0,σ2)

t-тест:

Yзнак равноβ0+β1Икс(фиктивный код)+εгде ε~N(0,σ2)

ANOVA:

Yзнак равноβ0+β1Икс(фиктивный код)+εгде ε~N(0,σ2)

Прототип регрессии концептуализируется с помощью как непрерывной переменной. Тем не менее, единственное предположение, которое фактически делается в отношении X, состоит в том, что это вектор известных констант. Это может быть непрерывная переменная, но это также может быть фиктивный код (т. Е. Вектор с 0 и 1 , который указывает, является ли наблюдение членом указанной группы - например, группой лечения). Таким образом, во втором уравнении X может быть таким фиктивным кодом, а значение p будет таким же, как в t-тесте в его более традиционной форме. ИксИкс01Икс

Однако смысл бета-версий здесь будет другим. В этом случае будет средним значением контрольной группы (для которой значения в фиктивной переменной будут равны 0 ), а β 1 будет разницей между средним значением для группы лечения и средним значением для контроля. группа. β00β1

Теперь помните, что совершенно разумно иметь / запускать ANOVA только с двумя группами (хотя t-тест будет более распространенным), и у вас есть все три подключенных. Если вы предпочитаете посмотреть, как это будет работать, если у вас есть ANOVA с 3 группами; это будет: Обратите внимание, что когда у вас есть g групп, у вас есть g - 1 фиктивных кодов для их представления. Эталонная группа (обычно контрольная группа) указывается наличием 0 длявсехфиктивных кодов (в этом случае и фиктивный код 1 и фиктивный код 2). В этом случае вы не хотели бы интерпретировать p-значения t-тестов для этих бета-версий, которые поставляются со стандартным статистическим выводом - они только показывают, отличается ли указанная группа от контрольной группыпри оценке в изоляции

Yзнак равноβ0+β1Икс(фиктивный код 1)+β2Икс(фиктивный код 2)+εгде ε~N(0,σ2)
граммграмм-10, То есть эти тесты не являются независимыми. Вместо этого вы хотели бы оценить, отличаются ли средние значения группы, составив таблицу ANOVA и выполнив F-тест. Для чего бы это ни стоило, беты интерпретируются так же, как и в версии t-теста, описанной выше: - среднее значение контрольной / контрольной группы, β 1 указывает на разницу между средними для группы 1 и контрольной группы, а β 2 указывает на разницу между группой 2 и контрольной группой. β0β1β2

В свете комментариев @ whuber ниже, они также могут быть представлены с помощью матричных уравнений:
Представленные таким образом, Y & ε - векторы длины N , а β - вектор длины p + 1 . Теперь X - это матрица с N строками и ( p + 1 ) столбцами. В прототипной регрессии у вас есть p непрерывных переменных X и перехват. Таким образом, ваш X

Yзнак равноИксβ+ε
YεNβп+1ИксN(п+1)пИксИксМатрица состоит из серии векторов столбцов рядом, по одному для каждой переменной , со столбцом из 1 слева для перехвата. Икс1

Если вы представляющий ANOVA с группами таким образом, помните , что вы бы г - 1 фиктивные переменные , указывающие на группы, с контрольной группой показано с помощью наблюдения , имеющего 0 «S в каждой переменной фиктивным. Как и выше, у вас все равно будет перехват. Таким образом, p = g - 1 . граммграмм-10пзнак равнограмм-1


1
Уравнение ANOVA будет иметь смысл как ANOVA (а не t-критерий), только если интерпретируется как вектор и умножается справа. β1
whuber

Это не матричные уравнения; Я редко использую их здесь, так как многие не читают их. 1-й ANOVA представляет собой ту же ситуацию, что и предыдущий t-критерий. Я просто указываю на то, что если вы можете запустить независимый t-тест из 2 выборок, вы можете запустить те же данные, что и ANOVA (которые многие люди должны узнавать / запоминать из своего класса stats 101). Я добавляю еще одну версию ANOVA с 3 группами ниже, чтобы прояснить, что ситуация с 2 группами - не единственный случай ANOVA, который можно понимать как регрессию; но уравнение рег теперь выглядит иначе - я пытался поддерживать более четкую параллель выше.
gung - Восстановить Монику

Я хочу сказать, что если вы не сделаете это матричным уравнением, ваша характеристика ANOVA слишком ограничена, чтобы быть полезной: она идентична вашей характеристике t-критерия и поэтому более запутанная, чем полезная. Когда вы начинаете вводить больше групп, вы внезапно меняете уравнение, которое также может быть не совсем понятным. Хотите ли вы использовать матричную нотацию, конечно, решать вам, но в интересах хорошей коммуникации вы должны стремиться к последовательности.
whuber

Не могли бы вы объяснить немного больше о том, как вы переходите от популярного определения t-критерия к уравнению, которое вы показали. По сути, я не могу понять, что такое Y здесь (это может быть наивность или меньший IQ для статистики). Однако, как прийти из t = (yx-u0) / s к этому уравнению.
Гаурав Сингхал

Это не так, хотя это может быть незнакомым для вас. непрерывен (и считается условно нормальным) во всех перечисленных случаях. Нет никаких распределительных предположений о X , это может быть непрерывная, дихотомическая или многоуровневая категориальная переменная. YX
gung - Восстановить Монику

16

Все они могут быть записаны как частные случаи общей линейной модели.

F

Модель ANOVA - это просто модель регрессии, в которой уровни факторов представлены фиктивными (или индикаторными ) переменными .

Y


t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

Обратите внимание на значение р 0,079 выше. Вот один из способов анова:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

Теперь для регрессии:

> summary(lm(extra ~ group, data = sleep))

(некоторые данные удалены)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

Сравните значение p в строке 'group2', а также значение p для F-теста в последней строке. Для двустороннего теста они одинаковы и оба соответствуют результатам t-теста.

Кроме того, коэффициент для «group2» представляет разницу в средних для двух групп.


Наличие одинаковых значений p во всех трех сценариях является волшебным и впечатляющим, однако, если бы вы могли объяснить немного больше о том, как рассчитываются эти значения p, это определенно сделало бы этот ответ более интересным . Я не знаю, если показ вычислений p-значения сделает это более полезным , так что это то, что вы могли бы решить.
Гаурав Сингхал

@Gaurav p-значения одинаковы, потому что вы тестируете одну и ту же гипотезу на одной и той же модели, просто представленной немного по-разному. Если вам интересно, как рассчитывается какое-то конкретное значение p, это будет новый вопрос (он не будет ответом на этот вопрос здесь). Вы можете задать такой вопрос, хотя сначала попробуйте выполнить поиск, поскольку, возможно, на него уже был дан ответ.
Glen_b

Спасибо @Glen_b, извините за то, что задали очевидный вопрос, и это тоже не лучшим образом. И вы все равно ответили на мой вопрос - «та же гипотеза о той же модели (и / или данных)». Я не дал достаточно мыслей о том, как они проверяют одну и ту же гипотезу. Спасибо
Гаурав Сингхал

2

Этот ответ, который я опубликовал ранее, несколько уместен, но этот вопрос несколько другой.

Возможно, вы захотите подумать о различиях и сходствах между следующими линейными моделями:

[Y1YN]знак равно[1Икс11Икс21Икс31ИксN][α0α1]+[ε1εN]
[Y1YN]знак равно[10001000010001000010][α0αК]+[ε1εN]

2
Некоторое описание и комментарии к вопросам были бы полезны для читателей, поскольку теперь им нужно угадать, откуда они пришли и как они относятся к вопросу ...
Тим

0

Anova похожа на t-критерий равенства средств в предположении неизвестных, но равных различий между обработками. Это связано с тем, что в ANOVA MSE идентично объединенной дисперсии, используемой в t-тесте. Существуют и другие версии t-критерия, например, для неравных отклонений и попарного t-критерия. С этой точки зрения t-критерий может быть более гибким.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.