ANOVA предположение нормальность / нормальное распределение остатков

На странице Википедии в ANOVA перечислены три предположения , а именно:

Независимость случаев - это предположение модели, которая упрощает статистический анализ.
Нормальность - распределение остатков нормальное.
Равенство (или «однородность») дисперсий, называемых гомоскедастичностью ...

Интересным моментом здесь является второе предположение. Несколько источников перечисляют это предположение по-разному. Некоторые говорят о нормальности исходных данных, некоторые утверждают об остатках.

Несколько вопросов всплывают:

Являются ли нормальность и нормальное распределение остатков одним и тем же человеком (основываясь на записи в Википедии, я бы сказал, что нормальность - это свойство, и оно не относится непосредственно к остаткам (но может быть свойством остатков (глубоко вложенный текст в скобках, причудливый)))?
если нет, какое предположение следует придерживаться? Один? Обе?
если предположение о нормально распределенных невязках является правильным, делаем ли мы серьезную ошибку, проверяя только гистограмму необработанных значений на нормальность?

— Роман Луштрик
источник

Вы можете в значительной степени игнорировать любые другие источники, которые говорят, что если они утверждают, что необработанные данные должны быть нормально распределены. А кто сказал "мы", так или иначе проверял только необработанные значения с помощью гистограмм. Вы в одном из этих классов Шесть Сигма ???

— DWin

@Andy W: Я только что добавил ссылку на то, что, кажется, соответствует разделу статьи Википедии об ANOVA.

— OneStop

@DWin: blog.markanthonylawson.com/?p=296 (извините, совершенно не по теме , но не удержалась)

— OneStop

@onetop спасибо. Я просил ссылку только потому, что я ленивый и не хотел сам искать ANOVA в Википедии, а не потому, что это важно для вопроса.

— Энди В.

Связанный вопрос здесь: что-если-остатки-обычно-распределены-но-у-нет .

— gung - Восстановить Монику

Ответы:

Давайте предположим, что это модель с фиксированными эффектами . (На самом деле совет не меняется для моделей со случайными эффектами, он становится немного сложнее.)

Нет, нормальность и нормальное распределение остатков не совпадают . Предположим, вы измерили урожайность с урожая с внесением удобрений и без него. На участках без удобрений урожайность варьировалась от 70 до 130. На двух участках с удобрениями урожай варьировался от 470 до 530. Распределение результатов сильно ненормальное: оно сгруппировано в двух местах, связанных с внесением удобрений. Предположим, что в дальнейшем средняя доходность составляет 100 и 500 соответственно. Тогда все остатки колеблются от -30 до +30. Они могут (или не могут) нормально распределяться, но, очевидно, это совершенно другое распределение.
Распределение остатков имеет значение , потому что они отражают случайную часть модели. Также обратите внимание, что значения p вычисляются из статистики F (или t) и зависят от остатков, а не от исходных значений.
Если в данных есть существенные и важные эффекты (как в этом примере), то вы можете сделать «серьезную» ошибку . К счастью, вы могли бы сделать правильное определение: то есть, просмотрев необработанные данные, вы увидите смесь распределений, и это может выглядеть нормально (или нет). Дело в том, что то, что вы ищете, не имеет значения.

Остатки ANOVA не должны быть где-то близко к нормальному, чтобы соответствовать модели. Тем не менее, почти нормальность остатков важна для того, чтобы значения p, вычисленные по F-распределению, были значимыми.

— Whuber
источник

Я думаю, что есть важные моменты, которые нужно добавить: в ANOVA нормальность в каждой группе (а не в целом) эквивалентна нормальности остатков.

— Анико

@Aniko Не могли бы вы уточнить, что вы подразумеваете под «эквивалентом» в своем комментарии? Почти тавтологично, что нормальность внутри группы такая же, как нормальность остатков этой группы, но неверно, что нормальность отдельно в каждой группе подразумевает (или подразумевается) нормальность остатков.

— whuber

Я действительно имел в виду тавтологический смысл: если группы нормальные, то остатки нормальные. Обратное верно только в том случае, если добавлена гомоскедентность (как в ANOVA). Я не хочу выступать за проверку групп, а не остатков, но я думаю, что это является основной причиной различных формулировок предположений.

— Анико

Я заметил, что люди, делающие ANOVA, обычно интересуются вычислением p-значений, и, следовательно, для них важна нормальность невязок. Есть ли какие-либо общие причины для подбора модели ANOVA, если мы не заинтересованы в вычислении p-значений из F-распределения? Извиняюсь, если этот вопрос слишком широк для комментария.

— user1205901 - Восстановить Монику

@ user1205901 Это очень хороший момент. Два распространенных применения ANOVA, которые не основаны на F-тесте: (1) это удобный способ получения оценок эффекта и (2) его неотъемлемая часть для расчета отклонений.

— whuber

Стандартный Классический односторонний ANOVA можно рассматривать как расширение классического «2-выборочного Т-теста» до «n-выборочного Т-теста». Это видно из сравнения одностороннего ANOVA только с двумя группами с классическим 2-образным T-тестом.

Я думаю, что вас смущает то, что (согласно предположениям модели) остатки и необработанные данные ОБА обычно распределяются. Однако необработанные данные состоят из нормальных распределений с различными средними значениями (если только все эффекты не являются одинаковыми), но с одинаковой дисперсией. Остатки, с другой стороны, имеют такое же нормальное распределение . Это вытекает из третьего предположения о гомоскедастичности.

Это связано с тем, что нормальное распределение можно разложить на среднее и дисперсионные компоненты. Если имеет нормальное распределение со средним значением и дисперсию можно записать в виде где имеет стандартное нормальное распределение. $Y_{ij}$ $\mu_{j}$ $\sigma^2$ $Y_{ij}=\mu_{j}+\sigma\epsilon_{ij}$ $\epsilon_{ij}$

$\epsilon_{ij}$

$Y_{ij}$

— probabilityislogic
источник

+1 за указание (в последнем абзаце) на предположение о гомоскедастичности.

— whuber

Означает ли это, что если мы допустим сравнение, скажем, n зависимых групп, нам нужно отдельно проверить их остатки (в результате получим n групп остатков)?

— Стан

$p$ $n_{j}$ $F = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}}$

$SS_{b} = \sum_{j=1}^{p}{n_{j} (M - M_{j}})^{2}$

$SS_{w} = \sum_{j=1}^{p}\sum_{i=1}^{n_{j}}{(y_{ij} - M_{j})^{2}}$

$F$ $F$ $SS_{b} / df_{b}$ $SS_{w} / df_{w}$ $\chi^{2}$ $df_{b}$ $df_{w}$ $SS_{b}$ $SS_{w}$ $0$ $M-M_{j}$ $y_{ij}-M_{j}$

$y_{i(j)} - M_{j}$ $Y = \mu_{j} + \epsilon = \mu + \alpha_{j} + \epsilon$ $y_{i(j)} - M$ $Y = \mu + \epsilon$ $M - M_{j}$

$H_{0}$ $M$ $y_{i(j)} - M_{j}$ $M - M_{j}$

— каракал
источник

S S

$SS$

χ^{2}

$\chi^2$

M_{j} = M

$M_j=M$

j

$j$

y_{i j} - M_{j}

$y_{ij}-M_j$

M_{j} - M

$M_j-M$

@onestop Отредактировано, чтобы отразить ваши разъяснения, спасибо!

— Каракал