Как они все версии одного и того же базового статистического метода?
Как они все версии одного и того же базового статистического метода?
Ответы:
Учтите, что все они могут быть записаны как уравнение регрессии (возможно, с немного отличающимися интерпретациями, чем их традиционные формы).
Регрессия:
t-тест:
ANOVA:
Прототип регрессии концептуализируется с помощью как непрерывной переменной. Тем не менее, единственное предположение, которое фактически делается в отношении X, состоит в том, что это вектор известных констант. Это может быть непрерывная переменная, но это также может быть фиктивный код (т. Е. Вектор с 0 и 1 , который указывает, является ли наблюдение членом указанной группы - например, группой лечения). Таким образом, во втором уравнении X может быть таким фиктивным кодом, а значение p будет таким же, как в t-тесте в его более традиционной форме.
Однако смысл бета-версий здесь будет другим. В этом случае будет средним значением контрольной группы (для которой значения в фиктивной переменной будут равны 0 ), а β 1 будет разницей между средним значением для группы лечения и средним значением для контроля. группа.
Теперь помните, что совершенно разумно иметь / запускать ANOVA только с двумя группами (хотя t-тест будет более распространенным), и у вас есть все три подключенных. Если вы предпочитаете посмотреть, как это будет работать, если у вас есть ANOVA с 3 группами; это будет: Обратите внимание, что когда у вас есть g групп, у вас есть g - 1 фиктивных кодов для их представления. Эталонная группа (обычно контрольная группа) указывается наличием 0 длявсехфиктивных кодов (в этом случае и фиктивный код 1 и фиктивный код 2). В этом случае вы не хотели бы интерпретировать p-значения t-тестов для этих бета-версий, которые поставляются со стандартным статистическим выводом - они только показывают, отличается ли указанная группа от контрольной группыпри оценке в изоляции
В свете комментариев @ whuber ниже, они также могут быть представлены с помощью матричных уравнений:
Представленные таким образом, Y & ε - векторы длины N , а β - вектор длины p + 1 . Теперь X - это матрица с N строками и ( p + 1 ) столбцами. В прототипной регрессии у вас есть p непрерывных переменных X и перехват. Таким образом, ваш X
Если вы представляющий ANOVA с группами таким образом, помните , что вы бы г - 1 фиктивные переменные , указывающие на группы, с контрольной группой показано с помощью наблюдения , имеющего 0 «S в каждой переменной фиктивным. Как и выше, у вас все равно будет перехват. Таким образом, p = g - 1 .
Все они могут быть записаны как частные случаи общей линейной модели.
Модель ANOVA - это просто модель регрессии, в которой уровни факторов представлены фиктивными (или индикаторными ) переменными .
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Обратите внимание на значение р 0,079 выше. Вот один из способов анова:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Теперь для регрессии:
> summary(lm(extra ~ group, data = sleep))
(некоторые данные удалены)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Сравните значение p в строке 'group2', а также значение p для F-теста в последней строке. Для двустороннего теста они одинаковы и оба соответствуют результатам t-теста.
Кроме того, коэффициент для «group2» представляет разницу в средних для двух групп.
Этот ответ, который я опубликовал ранее, несколько уместен, но этот вопрос несколько другой.
Возможно, вы захотите подумать о различиях и сходствах между следующими линейными моделями:
Anova похожа на t-критерий равенства средств в предположении неизвестных, но равных различий между обработками. Это связано с тем, что в ANOVA MSE идентично объединенной дисперсии, используемой в t-тесте. Существуют и другие версии t-критерия, например, для неравных отклонений и попарного t-критерия. С этой точки зрения t-критерий может быть более гибким.