Эта проблема, кажется, постоянно поднимает свою уродливую голову, и я пытаюсь обезглавить ее для моего собственного понимания статистики (и здравомыслия!).
Допущения общих линейных моделей (t-критерий, ANOVA, регрессия и т. Д.) Включают «допущение нормальности», но я обнаружил, что это редко описывается четко.
Я часто сталкиваюсь с учебниками / руководствами по статистике и т. Д., Просто утверждая, что «допущение нормальности» применимо к каждой группе (т. Е. Категориальным переменным X), и нам следует изучить отклонения от нормальности для каждой группы .
Вопросы :
относится ли предположение к значениям Y или остаткам Y?
для конкретной группы возможно ли иметь строго ненормальное распределение значений Y (например, искаженное), НО приблизительно (или, по крайней мере, более нормальное) распределение остатков Y?
Другие источники описывают, что предположение относится к остаткам модели (в случаях, когда есть группы, например, t-тесты / ANOVA), и мы должны исследовать отклонения от нормальности этих остатков (т. Е. Только один график / тест QQ для бег).
подразумевает ли нормальность невязок для модели нормальность невязок для групп ? Другими словами, должны ли мы просто исследовать остатки модели (в отличие от инструкций во многих текстах)?
Чтобы поместить это в контекст, рассмотрим этот гипотетический пример:
- Я хочу сравнить высоту дерева (Y) между двумя популяциями (X).
- В одной популяции распределение Y сильно искажено (то есть большинство деревьев короткие, очень немногие высокие), в то время как другая практически нормальная
- Рост в целом выше в нормально распределенной популяции (предполагая, что может быть «реальная» разница).
- Преобразование данных существенно не улучшает распределение первой популяции.
Во-первых, допустимо ли сравнивать группы с учетом радикально разных распределений по высоте?
Как мне приблизиться к «предположению о нормальности» здесь? Напомним, высота в одной популяции обычно не распределена. Проверяю ли я остатки для обеих популяций отдельно ИЛИ остатки для модели (t-критерий)?
Пожалуйста, обращайтесь к вопросам по номерам в ответах, опыт показывает, что люди легко теряются или отвлекаются (особенно я!). Имейте в виду, я не статистика; хотя у меня есть достаточно концептуальное (то есть, не техническое!) понимание статистики.
PS, я искал архивы и прочитал следующие темы, которые не укрепили мое понимание:
- ANOVA предположение нормальность / нормальное распределение остатков
- Нормальность остатков в сравнении с выборочными данными; как насчет t-тестов?
- Является ли тестирование нормальности «по существу бесполезным»?
- Тестирование нормальности
- Оценка нормальности распределения
- Какие тесты я использую, чтобы подтвердить, что остатки нормально распределены?
- Что делать, если критерий Колмогорова-Смирнова значим для остатков параметрического теста, но асимметрия и эксцесс выглядят нормально?