Почему значения ANOVA (равенство дисперсии, нормальность остатков) имеют значение?

15

При запуске ANOVA нам говорят, что должны присутствовать определенные допущения теста, чтобы он был применим к данным. Я никогда не понимал причину, почему следующие тесты были необходимы для теста:

Дисперсия вашей зависимой переменной (остатки) должна быть одинаковой в каждой ячейке проекта
Ваша зависимая переменная (остатки) должна быть примерно нормально распределена для каждой ячейки проекта

Я понимаю, что есть некоторая неясная область относительно того, должны ли эти предположения быть выполнены, но ради аргумента, если бы эти предположения не были полностью соблюдены в данном наборе данных, в чем была бы проблема с использованием ANOVA ?

hypothesis-testing anova assumptions

— PaperRockBazooka
источник

Какова цель вашего обучения?

— Субхаш С. Давар

8

Предположения имеют значение, поскольку они влияют на свойства тестов гипотез (и интервалов), которые вы можете использовать, чьи свойства распределения под нулем рассчитываются на основе этих предположений.

В частности, для проверки гипотез мы должны заботиться о том, насколько далеко может быть истинный уровень значимости от того, каким мы хотим его видеть, и насколько хороша сила против альтернатив, представляющих интерес.

Относительно допущений, которые вы спрашиваете о:

1. Равенство дисперсии

Дисперсия вашей зависимой переменной (остатки) должна быть одинаковой в каждой ячейке проекта

Это, безусловно, может повлиять на уровень значимости, по крайней мере, когда размеры выборки неравны.

(Правка :) ANOVA F-статистика - это отношение двух оценок дисперсии (разделение и сравнение дисперсий, поэтому она называется анализом дисперсии). Знаменатель является оценкой дисперсии ошибки, предположительно общей для всех ячеек (рассчитанной по остаточным значениям), в то время как числитель, основанный на вариации средних значений группы, будет иметь два компонента, один из вариаций среднего значения популяции и один из-за ошибки дисперсии. Если значение равно нулю, две оцениваемые дисперсии будут одинаковыми (две оценки дисперсии общей ошибки); это общее, но неизвестное значение компенсируется (потому что мы взяли соотношение), оставляя F-статистику, которая зависит только от распределений ошибок (которые в предположениях, которые мы можем показать, имеют F-распределение. (Подобные комментарии применимы к t- тест я использовал для иллюстрации.)

[Там же немного более подробно на некоторых из этой информации в моем ответе здесь ]

Однако здесь две популяции различаются по двум разным размерам выборок. Рассмотрим знаменатель (F-статистики в ANOVA и T-статистики в T-тесте) - он состоит из двух разных оценок дисперсии, а не одной, поэтому он не будет иметь «правильного» распределения (масштабированный ци - квадрат для F и его квадратный корень в случае at - и форма, и масштаб являются вопросами).

В результате F-статистика или t-статистика больше не будут иметь F- или t-распределения, но способ воздействия на них различен в зависимости от того, была ли большая или меньшая выборка взята из популяции с большая дисперсия. Это, в свою очередь, влияет на распределение значений р.

Под нулевым значением (т. Е. Когда средние значения равны), распределение значений p должно быть равномерно распределено. Однако, если отклонения и размеры выборки не равны, а средние значения равны (поэтому мы не хотим отклонять ноль), значения p распределяются неравномерно. Я сделал небольшую симуляцию, чтобы показать вам, что происходит. В этом случае я использовал только 2 группы, поэтому ANOVA эквивалентен t-критерию с двумя выборками с предположением равной дисперсии. Поэтому я смоделировал выборки из двух нормальных распределений, одно из которых со стандартным отклонением в десять раз больше другого, но равным образом.

Для левого бокового графика большее стандартное отклонение ( население ) было для n = 5, а меньшее стандартное отклонение было для n = 30. Для правой части графика большее стандартное отклонение пошло с n = 30, а меньшее с n = 5. Я моделировал каждый из них 10000 раз и каждый раз находил значение p. В каждом случае вы хотите, чтобы гистограмма была полностью плоской (прямоугольной), так как это означает, что все тесты, проводимые на некотором уровне значимости на самом деле получают такой коэффициент ошибок типа I. В частности, наиболее важно, чтобы самые левые части гистограммы оставались близко к серой линии: $\alpha$

Как мы видим, на левом графике (большая дисперсия в меньшей выборке) p-значения имеют тенденцию быть очень маленькими - мы бы очень часто отвергали нулевую гипотезу (почти половину времени в этом примере), даже если нулевое значение истинно , То есть наши уровни значимости намного больше, чем мы просили. На графике справа мы видим, что p-значения в основном большие (и поэтому наш уровень значимости намного меньше, чем мы просили) - фактически, не один раз из десяти тысяч симуляций мы отклоняли на уровне 5% (наименьшее р-значение здесь было 0,055). [Это может показаться не таким уж плохим, пока мы не вспомним, что у нас также будет очень низкая сила, чтобы идти с нашим очень низким уровнем значимости.]

Это довольно следствие. Вот почему рекомендуется использовать t-критерий типа Уэлча-Саттервейта или ANOVA, когда у нас нет веских оснований предполагать, что отклонения будут близки к равным - для сравнения, в этих ситуациях это практически не затрагивается ( также имитировал этот случай: два распределения имитируемых p-значений, которые я здесь не показал, вышли довольно близко к плоскости).

2. Условное распределение ответа (DV)

Ваша зависимая переменная (остатки) должна быть примерно нормально распределена для каждой ячейки проекта

Это несколько менее критично - для умеренных отклонений от нормы уровень значимости не так сильно влияет на большие выборки (хотя мощность может быть!).

Вот один пример, где значения распределены экспоненциально (с одинаковыми распределениями и размерами выборки), где мы можем видеть, что проблема уровня значимости существенна при малых но уменьшается при больших . $n$ $n$

Мы видим, что при n = 5, по существу, слишком мало малых значений p (уровень значимости для теста 5% будет примерно вдвое меньше, чем должно быть), но при n = 50 проблема уменьшается - на 5% Тест в этом случае истинный уровень значимости составляет около 4,5%.

Таким образом, у нас может возникнуть соблазн сказать: «Хорошо, это нормально, если n достаточно велико, чтобы уровень значимости был достаточно близок», но мы также можем проложить немало сил. В частности, известно, что асимптотическая относительная эффективность t-критерия по отношению к широко используемым альтернативам может доходить до 0. Это означает, что лучший выбор теста может получить ту же мощность с исчезающе малой долей размера выборки, необходимой для его получения. Т-тест. Вам не нужно ничего необычного, чтобы потребовать больше, чем, скажем, вдвое больше данных, чтобы иметь ту же мощность, что и вам, в случае с альтернативным тестом - умеренно тяжелее, чем обычные хвосты в распределении популяции. и достаточно больших выборок может быть достаточно для этого.

(Другие варианты распределения могут сделать уровень значимости выше, чем он должен быть, или существенно ниже, чем мы видели здесь.)

— Glen_b - Восстановить Монику
источник

Спасибо Глену за подробный ответ. Мне любопытно, почему ошибки, которые вы описали, произошли бы, если бы предположения не были соблюдены. С точки зрения равенства отклонений, правильно ли я считаю, что вы написали следующее ?: Проблема, возникающая из-за наличия группы с меньшим размером выборки, имеющей чем больше дисперсия (а также количество точек данных, которые в целом являются небольшими, т. е. n = 5), тем большую дисперсию, наблюдаемую в меньшей выборке, рассчитывают как репрезентативную дисперсию на уровне популяции.

— PaperRockBazooka

(часть 2) Это, по сути, несправедливое сравнение между репрезентативной выборкой и заниженной репрезентативной выборкой (условно говоря), которая может привести к ошибке типа 1 из-за того, как обрабатывается ANOVA.

— PaperRockBazooka

@ Бумага Я не думаю, что это проблема здесь. Это не репрезентативность дисперсии выборки в более мелкой выборке (например, если бы обе выборки были одинаково малы, у вас было бы вдвое больше проблемы с репрезентативностью, но эта проблема отсутствовала бы). Я добавил несколько абзацев к своему ответу, чтобы объяснить, как проблема возникает более подробно.

— Glen_b

4

Короче говоря, ANOVA складывает , возводит в квадрат и усредняет невязки . Остатки говорят вам, насколько хорошо ваша модель соответствует данным. Для этого примера я использовал PlantGrowthнабор данных в R:

Результаты эксперимента по сравнению урожайности (измеренной по сухой массе растений), полученной при контроле и двух разных условиях обработки.

Этот первый график показывает вам среднее значение на всех трех уровнях лечения:

Красные линии - остатки . Теперь, возведя в квадрат и добавив длину этих отдельных линий, вы получите значение, которое говорит вам, насколько хорошо среднее значение (наша модель) описывает данные. Небольшое число говорит о том, что среднее значение хорошо описывает ваши точки данных, большее число говорит о том, что среднее не очень хорошо описывает ваши данные. Это число называется общей суммой квадратов :

$SS_{total}=\sum(x_i-\bar{x}_{grand})^2$ $x_{i}$ $\bar{x}_{grand}$

Теперь вы делаете то же самое для остатков в вашем лечении ( Остаточные суммы квадратов , которые также известны как шум в уровнях лечения):

И формула:

$SS_{residuals}=\sum(x_{ik}-\bar{x}_{k})^2$ $x_{ik}$ $i$ $k$ $\bar{x}_{k}$

Наконец, нам нужно определить сигнал в данных, который известен как модельные суммы квадратов , которые позже будут использоваться для расчета, отличаются ли средства обработки от общего среднего:

И формула:

$SS_{model}=\sum n_{k}(\bar{x}_k-\bar{x}_{grand})^2$ $n_{k}$ $n$ $k$ $\bar{x}_k$ $\bar{x}_{grand}$

Теперь недостаток сумм квадратов состоит в том, что они увеличиваются с увеличением размера выборки. Чтобы выразить эти суммы квадратов относительно количества наблюдений в наборе данных, вы делите их на степени свободы, превращая их в дисперсии. Итак, после возведения в квадрат и добавления ваших точек данных вы теперь усредняете их, используя их степени свободы:

$df_{total}=(n-1)$

$df_{residual}=(n-k)$

$df_{model}=(k-1)$

$n$ $k$

Это приводит к среднему квадрату модели и остаточному среднему квадрату (оба представляют собой отклонения) или отношению сигнал / шум, которое известно как F-значение:

$MS_{model}=\frac{SS_{model}}{df_{model}}$

$MS_{residual}=\frac{SS_{residual}}{df_{residual}}$

$F=\frac{MS_{model}}{MS_{residual}}$

Значение F описывает отношение сигнал / шум или то, отличаются ли средства обработки от общего среднего. F-значение теперь используется для расчета p-значений, и они будут определять, будет ли хотя бы одно из средств лечения значительно отличаться от общего среднего значения или нет.

Теперь я надеюсь, что вы видите, что предположения основаны на расчетах с остатками и почему они важны. Так как мы добавляем , возводим в квадрат и усредняем невязки, мы должны убедиться, что перед тем, как мы это сделаем, данные в этих группах лечения ведут себя аналогично , иначе значение F может быть смещено до некоторой степени, и выводы, сделанные из этого значения F, могут не быть действительным.

Изменить: я добавил два абзаца, чтобы более конкретно рассмотреть вопрос 2 и 1 ОП .

Допущение нормальности : среднее (или ожидаемое значение) часто используется в статистике для описания центра распределения, однако оно не очень устойчиво и на него легко влияют выбросы. Среднее значение - это самая простая модель, которую мы можем приспособить к данным. Поскольку в ANOVA мы используем среднее значение для вычисления невязок и сумм квадратов (см. Формулы выше), данные должны быть примерно нормально распределены (предположение о нормальности). Если это не так, среднее значение может не подходить для данных, так как оно не даст нам правильного расположения центра распределения выборки. Вместо этого можно было бы использовать медиану, например (см. Процедуры непараметрического тестирования).

Предположение об однородности дисперсии . Позже, когда мы вычисляем средние квадраты (модель и остаток), мы объединяем отдельные суммы квадратов из уровней обработки и усредняем их (см. Формулы выше). Путем объединения и усреднения мы теряем информацию об индивидуальных колебаниях уровня лечения и их вкладе в средние квадраты. Следовательно, мы должны иметь примерно одинаковую дисперсию среди всех уровней лечения, чтобы вклад в средние квадраты был одинаковым. Если бы различия между этими уровнями обработки были разными, то получающиеся средние квадраты и F-значение будут смещены и будут влиять на вычисление p-значений, делая выводы, сделанные из этих p-значений, сомнительными (см. Также комментарий @whuber и Ответ @Glen_b).

Вот как я вижу это для себя. Это может быть не на 100% точно (я не статистик), но это помогает мне понять, почему важно выполнять предположения для ANOVA.

— Стефан
источник

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

F

$F$

Спасибо Стефан. Я хочу посмотреть, правильно ли я вас понимаю. ANOVA по существу создает великое среднее значение из всех точек данных набора и сравнивает, насколько далеко каждая группа отличается от этого великого среднего значения, чтобы понять, является ли их статистически значимое различие между ними. Если обсуждаемые допущения не выполняются, среднее значение не очень отражает сравниваемые группы и приводит к затруднению сравнения

— PaperRockBazooka

S S_{t o t a l}

$SS_{total}$

S S_{r e s i d u a l}

$SS_{residual}$ ), а разница между средними и средними значениями (

S S_{m o d e l}

$SS_{model}$ ) определить отношение сигнал / шум. Попробуйте вычислить простой односторонний ANOVA вручную. Это помогло мне понять это лучше.

— Стефан

0

ANOVA это всего лишь метод, он вычисляет F-тест по вашим выборкам и сравнивает его с F-распределением. Вам нужно принять некоторые предположения, чтобы решить, что вы хотите сравнить, и рассчитать p-значения.

Если вы не соответствуете этим предположениям, вы можете рассчитать другие вещи, но это не будет ANOVA.

Самый полезный дистрибутив - нормальный (из-за CLT), поэтому он наиболее часто используется. Если ваши данные обычно не распространяются, вам нужно хотя бы знать, как они распределяются, чтобы что-то вычислить.

Гомоскедастичность является распространенным допущением и в регрессионном анализе, она просто делает вещи проще. Для начала нам нужны некоторые предположения.

Если у вас нет гомоскедастичности, вы можете попытаться преобразовать свои данные для достижения этого.

Известно, что F-тест ANOVA является почти оптимальным в смысле минимизации ложноотрицательных ошибок для фиксированной частоты ложноположительных ошибок.

— скан
источник

«ANOVA» относится к процессу разложения сумм квадратов на интерпретируемые компоненты. Независимо от предположений о распределении, ANOVA является ANOVA.

— whuber