Отклонение от нормального предположения в ANOVA: куртоз или асимметрия важнее?

Прикладные линейные статистические модели Kutner et al. утверждает следующее относительно отклонений от предположения нормальности моделей ANOVA: Куртоз распределения ошибок (более или менее достигший максимума, чем нормальное распределение) является более важным, чем асимметрия распределения с точки зрения влияния на выводы .

Я немного озадачен этим утверждением и не смог найти никакой связанной информации ни в книге, ни в Интернете. Я сбит с толку, потому что я также узнал, что QQ-графики с тяжелыми хвостами являются показателем того, что допущение нормальности является «достаточно хорошим» для моделей линейной регрессии, тогда как перекосные QQ-графики более важны (т. Е. Может потребоваться преобразование) ,

Правильно ли я понимаю, что то же рассуждение относится и к ANOVA, и что их выбор слов ( более важный с точки зрения влияния на выводы ) был просто выбран плохо? Т.е. асимметричное распределение имеет более серьезные последствия и его следует избегать, тогда как небольшое количество эксцессов может быть приемлемым.

РЕДАКТИРОВАТЬ: Как подчеркнул rolando2, трудно утверждать, что один во всех случаях важнее другого, но я просто ищу некоторую общую информацию. Моя главная проблема заключается в том, что меня учили, что в простой линейной регрессии QQ-графики с более тяжелыми хвостами (= эксцесс?) В порядке, так как F-тест довольно устойчив к этому. С другой стороны, перекос QQ-графиков (в форме параболы), как правило, является более серьезной проблемой. Похоже, это идет вразрез с указаниями, которые в моем учебнике приведены для ANOVA, хотя модели ANOVA могут быть преобразованы в регрессионные модели и должны иметь те же предположения.

Я убежден, что я что-то упускаю, или у меня ложное предположение, но я не могу понять, что это может быть.

— Зенит
источник

В своем обзоре куртоза DeCarlo (1997) предположил прямо противоположное, что перекос более важен в ANOVA и других тестах равенства средств. Вы можете найти цитаты на странице 297 полезными: columbia.edu/~ld208/psymeth97.pdf

— Энтони

Я бы нашел этот вопрос наиболее продуктивным, если бы его можно было разрешить в таком утверждении, как «Асимметрия настолько важнее для умозаключений, чем эксцесс, так что асимметрия на уровне ___ обычно искажает результаты так же сильно, как и эксцесс на уровне ___ «. Без некоторого такого количественного определения, просто сказать, что один или другой более важен, не поможет нам много.

— rolando2

Это моделирование emis.de/journals/HOA/ADS/Volume7_4/206.pdf, выполненное Khan and Rayner (2003) в журнале «Прикладная математика и науки о решениях », гласит, что «тесты ANOVA и Крускала-Уоллиса гораздо более подвержены влиянию куртоза распределения ошибок, а не их асимметрии "(с. 204).

— bsbk

Stats.stackexchange.com/questions/38967/… ... очень тесно связанный вопрос, касающийся t-критерия с двумя выборками - по сути, одностороннего ANOVA с двумя уровнями в множителе … Ссылки, поскольку ни один из существующих ответов не содержит ссылок, поэтому отвечающие на этот вопрос могут захотеть взглянуть на него.

— Серебряная рыба

Я согласен с @ rolando2: «асимметрия хуже куртоза» или наоборот - довольно бессмысленное утверждение без упоминания степени асимметрии / куртоза. Но также нужно учитывать еще больше! Например, устойчивость к такого рода нарушениям нормальности частично зависит от того, равны ли размеры группы , а устойчивость к асимметрии может зависеть от направления асимметрии - хуже, если одна группа отклоняется в одну сторону, а другая группа искажается. наоборот, чем если бы обе группы были отклонены в одном направлении. (Это из памяти и повторных t-тестов, но это тип ANOVA.)

— Silverfish

Ответы:

Трудность заключается в том, что асимметрия и эксцесс являются зависимыми; их эффекты не могут быть полностью отделены.

Проблема заключается в том, что если вы хотите изучить влияние сильно искаженного распределения, вы также должны иметь распределение с высоким эксцессом.

$\geq$ $^2+1$

* (обычный масштабный эксцесс четвертого момента, а не избыточный эксцесс)

Хан и Рейнер (о которых упоминалось в предыдущем ответе) работают с семьей, которая позволяет немного изучить влияние асимметрии и эксцесса, но они не могут избежать этой проблемы, поэтому их попытка разделить их серьезно ограничивает степень, в которой влияние асимметрия может быть исследована.

$\beta_2$ $\sqrt{\beta_2-1}$

Например, если вы хотите увидеть эффект высокой асимметрии - скажем, асимметрия> 5, вы не можете получить распределение с эксцессом менее 26!

Поэтому, если вы хотите исследовать влияние высокой асимметрии, вы не можете избежать исследования влияния высокой эксцессы. Следовательно, если вы попытаетесь разделить их, вы фактически лишите себя возможности оценить эффект увеличения асимметрии до высоких уровней.

Тем не менее, по крайней мере для семьи распределения, которую они рассматривали, и в рамках, которые представляют отношения между ними, расследование Кханом и Рейнером, по-видимому, наводит на мысль, что эксцесс является главной проблемой.

$>\sqrt{2}$

— Glen_b - Восстановить Монику
источник

Эта проблема решается в статье «Устойчивость к ненормальности общих тестов для проблемы местоположения многих образцов» Хана и Рейнера.

Они обнаружили, что тесты ANOVA гораздо больше подвержены куртозу, чем асимметрии, и эффект асимметрии не связан с его направлением.

Если есть подозрения на отклонения от нормы, лучшим может быть тест Крускала-Уоллиса. Критерий Крускала-Уоллиса более устойчив к отклонениям от нормы, поскольку он проверяет гипотезу о том, что медианы лечения идентичны. ANOVA проверяет гипотезу о том, что средства лечения идентичны.

— Брайан Спиринг
источник

Означает ли это также, что я должен по-разному интерпретировать графики QQ для линейной регрессии и ANOVA? Большинство преобразований, которые я делал, уменьшали асимметрию, но оставляли немного тяжелые хвосты (= куртоз?). У меня сложилось впечатление, что F-тест был достаточно надежным, чтобы справиться с последним, но не с первым. Или это «тяжелые хвосты в порядке» недоразумение с моей стороны? Я не могу себе представить, что между ними существует такое фундаментальное различие, поскольку модели ANOVA также можно переписать в виде моделей линейной регрессии.

— Зенит