Проверка предположений ANOVA

16

Несколько месяцев назад я опубликовал вопрос о тестах гомоскедастичности в R на SO, и Ян Феллоуз ответил на это (я перефразирую его ответ очень свободно):

Тесты на гомоскедастичность не являются хорошим инструментом при проверке соответствия вашей модели. С небольшими выборками у вас недостаточно мощности, чтобы обнаружить отклонения от гомоскедастичности, в то время как с большими выборками у вас есть «достаточно мощности», так что вы с большей вероятностью сможете отследить даже тривиальные отклонения от равенства.

Его великий ответ прозвучал как пощечина. Раньше я проверял предположения о нормальности и гомоскедастичности при каждом запуске ANOVA.

Какова, на ваш взгляд, лучшая практика при проверке допущений ANOVA?

— aL3xa
источник

11

В прикладных настройках, как правило, более важно знать, является ли какое-либо нарушение допущений проблематичным для вывода.

Тесты допущений, основанные на тестах значимости, редко представляют интерес для больших выборок, поскольку большинство выводных тестов устойчивы к легким нарушениям допущений.

Одной из приятных особенностей графических оценок допущений является то, что они фокусируют внимание на степени нарушения, а не на статистической значимости какого-либо нарушения.

Тем не менее, также можно сосредоточиться на числовых сводках ваших данных, которые количественно определяют степень нарушения допущений, а не статистическую значимость (например, значения асимметрии, значения эксцесса, отношение отклонений от наибольшей к наименьшей групп и т. Д.). Вы также можете получить стандартные ошибки или доверительные интервалы для этих значений, которые будут уменьшаться при увеличении выборки. Эта точка зрения согласуется с общей идеей о том, что статистическая значимость не эквивалентна практической значимости.

— Джером англим
источник

1

+1 за отличный ответ, который завершает все. Как применять упомянутые числовые процедуры, хорошо и применимо описано в Табачнике и Fidell's Использование многомерной статистики (для SPSS и SAS): amazon.com/Using-Multivariate-Statistics-Barbara-Tabachnick/dp/… (Но см. Исправления на сопровождаемая веб-страница)

— Хенрик

Ну, я думаю, что в большинстве случаев сводные значения, такие как асимметрия и эксцесс, имеют небольшую ценность, их вариация выборки слишком велика. Однако можно было бы рассмотреть возможность их замены на L_skewness и L-kurtosis.

— kjetil b halvorsen

@kjetilbhalvorsen Я думаю, это зависит от того, с какими размерами выборки вы обычно работаете. По моему опыту, графики и асимметрия очень полезны для понимания распределения данных.

— Джером Энглим

@Jeromy Anglim: ОК. Тогда, я думаю, у вас обычно очень большие размеры выборки! Вы пытались загрузить коэффициенты асимметрии / эксцесса?

— kjetil b halvorsen

9

Пара графиков, как правило, будет гораздо более информативной, чем значение p из теста нормальности или гомоскедастичности. График наблюдаемых зависимых переменных против независимых переменных. Сюжетные наблюдения против приступов. График остатков от независимых переменных. Исследуйте все, что выглядит странно на этих графиках. Если что-то не выглядит странным, я не стал бы беспокоиться о значительном тесте предположения.

— С. Коласса - Восстановить Монику
источник

Чаще всего это хороший совет, но как насчет больших наборов данных, когда вы не можете реально просмотреть все данные вручную?

— дсимча

1

n_{1} \neq n_{2}

$n_1\neq n_2$

< α

$<\alpha$

σ^{2}

$\sigma^2$

2

@dsimcha re большие наборы данных: зависит от того, что вы подразумеваете под "большой". Много наблюдений? Используйте хорошую графику (boxplot, jittered dotplots, sunflowerplots). Много независимых переменных? Да, у вас есть точка зрения ... Но если у вас так много IV, что вы не можете построить DV против каждого IV, я бы вообще задал вопрос об использовании ANOVA - похоже, что это может быть трудно интерпретировать в любом кейс. Некоторые интеллектуальные подходы к машинному обучению могут быть лучше (Брайан Д. Рипли: «Если перефразировать провокационно,« машинное обучение - это статистика без всякой проверки моделей и предположений ».)

— С. Коласса - Восстановить Монику

Хороший комментарий, +1. Несмотря на то, что этот конкретный вопрос касается ANOVA, я думал на более общем уровне о вопросе графики и тестов, когда писал свой ответ.

— дсимча

4

Вот несколько очень хороших веб-руководств для проверки предположений ANOVA и того, что делать в случае неудачи. Вот один. Это другое.

По сути, ваш глаз - лучший судья, поэтому проведите некоторый предварительный анализ данных . Это означает, что график данных - гистограммы и коробчатые графики - хороший способ оценить нормальность и однородность. И помните, что ANOVA устойчив к незначительным нарушениям этих правил.

— Thylacoleo
источник

4

Графики QQ - довольно хороший способ обнаружить ненормальность.

Для гомоскедастичности попробуйте тест Левена или тест Брауна-Форсайта. Оба похожи, хотя BF немного более устойчивый. Они менее чувствительны к ненормальности, чем тест Бартлетта, но, тем не менее, я обнаружил, что они не самые надежные при малых размерах выборки.

Сюжет QQ

Тест Брауна-Форсайта

Тест Левена

— Кристофер Аден
источник

Графики относительного распределения (или пример, по сравнению с нормальным распределением) могут быть хорошей заменой, поскольку их интерпретация может быть более понятной для начинающих.

— kjetil b halvorsen

3

Я согласен с другими, что проверка значимости для предположений проблематична.

Мне нравится иметь дело с этой проблемой, составляя единый график, который раскрывает все допущения модели, необходимые для точной ошибки типа I и низкой ошибки типа II (высокая мощность). Для случая ANOVA с 2 группами (две выборки t-критерия) этот график является нормальной инверсией эмпирической кумулятивной функции распределения (ECDF), стратифицированной по группам (см. Комментарий к графику QQ в предыдущем посте). Для того, чтобы t-тест показал хорошие результаты, две кривые должны быть параллельными прямыми. Для $k$ Пример проблемы ANOVA в целом вы бы имели $k$ параллельные прямые.

Полупараметрические (ранговые) методы, такие как критерии Уилкоксона и Крускала-Уоллиса, делают гораздо меньше предположений. Логит ECDF должен быть параллельным, чтобы тесты Уилкоксона-Крускала-Уоллиса имели максимальную мощность (ошибка типа I никогда не является для них проблемой). Линейность не требуется. Ранговые тесты делают предположения о том, как распределения разных групп связаны с другими, но не делают предположений о форме какого-либо одного распределения.

— Фрэнк Харрелл
источник

2

См. Также stats.stackexchange.com/questions/190223/…

— Ник Кокс