Общие статистические тесты как линейные модели

(ОБНОВЛЕНИЕ: я углубился в это и разместил результаты здесь )

Список названных статистических тестов огромен. Многие из общих тестов основаны на выводе из простых линейных моделей, например, t-критерий с одной выборкой - это просто y = β + ε, который проверяется на нулевой модели, y = μ + ε, т. Е. На том, что β = μ, где μ - некоторый нуль значение - обычно μ = 0.

Я считаю, что это несколько более поучительно для учебных целей, чем нарочное изучение названных моделей, когда их использовать, и их предположений, как будто они не имеют никакого отношения друг к другу. Такой подход способствует не способствует пониманию. Однако я не могу найти хороший ресурс, собирающий это. Меня больше интересует эквивалентность между базовыми моделями, а не метод вывода из них. Хотя, насколько я вижу, тесты отношения правдоподобия на всех этих линейных моделях дают те же результаты, что и «классический» вывод.

Вот эквиваленты, о которых я узнал до сих пор, игнорируя термин ошибки и предполагая, что все нулевые гипотезы являются отсутствием эффекта: $\varepsilon \sim \mathcal N(0, \sigma^2)$

T-тест для одной выборки: . $y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

T-критерий парных выборок: $y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

Это идентично t-критерию с одним образцом для парных разностей.

T-тест из двух выборок: $y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

где х - показатель (0 или 1).

Корреляция Пирсона: $y = \beta_1 * x + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Обратите внимание на сходство с t-тестом из двух выборок, который представляет собой просто регрессию на двоичной оси X.

Корреляция Спирмена: $rank(y) = \beta_1 * rank(x) + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Это идентично корреляции Пирсона для рангово-преобразованных х и у.

Односторонний ANOVA: $y = \beta_1*x_1 + \beta_2*x_2 + \beta_3*x_3 +... \qquad \mathcal{H}_0: \beta_1, \beta_2, \beta_3, ... = \beta$

где - индикаторы, выбирающие соответствующую (один равен 1; остальные 0). Модель, вероятно , можно записать в матричном виде , как . $x_i$ $\beta$ $x$ $Y = \beta * X$

Двухсторонний ANOVA: $y = \beta_1 * X_1 + \beta_2 * X_2 + \beta_3 * X_1 * X_2 \qquad \mathcal{H}_0: \beta_3 = 0$

для двух двухуровневых факторов. Здесь - векторы бета, где один выбран вектором индикатора . , показанный здесь эффект взаимодействия. $\beta_i$ $X_i$ $\mathcal{H}_0$

Можем ли мы добавить больше «именованных тестов» в этот список линейных моделей? Например, многомерная регрессия, другие «непараметрические» тесты, биномиальные тесты или RM-ANOVA?

ОБНОВЛЕНИЕ: вопросы о ANOVA и t-тестах были заданы и даны ответы здесь как на SO. Смотрите этот вопрос и помеченные связанные вопросы .

— Йонас Линделёв
источник

Я думаю, что эти сравнения уместны, но в какой-то момент есть и тонкие различия. Например, возьмем одностороннюю ANOVA: где линейная регрессия предоставит вам коэффициенты, а в большинстве пакетов программного обеспечения значимость на коэффициент с помощью тестов Вальда (что может быть неуместно), ANOVA предоставит одно значение p, указывающее, является ли один из коэффициентов существенно отличается от нуля. Тест отношения правдоподобия между нулевой моделью и интересующей регрессионной моделью может быть более сопоставимым. Поэтому я бы не стал полностью уравнивать эти тесты / модели.

— IWS

Хорошая точка зрения; Я обновил вопрос, сказав, что «меня больше интересует эквивалентность между базовыми моделями, а не метод логического вывода из них». Тесты отношения правдоподобия для односторонних ANOVA и терминов взаимодействия дают идентичные p-значения, что и в «классическом» анализе, что касается моего тестирования.

— Йонас Линделёв

Достаточно справедливо, но в стороне, отметим, что регрессионные модели также обеспечивают дополнительную гибкость при обработке нелинейности (хотя преобразования могут также проверяться с помощью этих «именованных тестов», сплайны - это другое дело) или при обработке гетероскедастичности, даже не упоминая семейство обобщенных моделей, которые также обрабатывают не непрерывные зависимые переменные. Тем не менее, я вижу объяснение названных тестов, поскольку ограничивающие вариации регрессионных моделей для целей обучения могут быть

— IWS

Является ли ранговая корреляция Спирмена действительно линейной моделью?

— Мартин Дитц

@MartinDietz: Да, после преобразования рангов x и y, оно линейно. R code:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')

— Йонас Линделёв

Не исчерпывающий список, но если вы включите обобщенные линейные модели, объем этой проблемы становится значительно больше.

Например:

Тест Cochran-Armitage тренда может быть сформулирован:

Е [логит (п) | T] знак равно β_{0} + β_{1} T {ЧАС}_{0} : β_{1} знак равно 0

$E[\mbox{logit} (p) | t] = \beta_0 + \beta_1 t \qquad \mathcal{H}_0: \beta_1 = 0$

Тест хи-квадрат Пирсона независимости для таблицу сопряженности $p \times k$ является лог-линейной модели для частот клеток определяется по формуле:

Е [журнал (μ)] знак равно β_{0} + β_{я,} + β_{, J} + γ_{я J} я, J > 1 {ЧАС}_{0} : γ_{я J} знак равно 0, я, J > 1

$E[\log (\mu)] = \beta_0 + \beta_{i.} + \beta_{.j} + \gamma_{ij} \quad i,j > 1 \qquad\mathcal{H}_0: \gamma_{ij} = 0, \quad i,j > 1$

Кроме того, t-критерий для неравных отклонений хорошо аппроксимируется с помощью робастной оценки погрешности Хьюбера Уайта.

— Adamo
источник