Это все в семье; но мы также включаем в закон?

Предположим, у меня есть эксперимент с двумя или более факторами. Создается общий ANOVA, а затем мы проводим два или более набора специальных тестов, скажем, многократных сравнений. Мой вопрос о том, какие большие и сколько семейств следует использовать в качестве основы для корректировки множественности этих специальных тестов.

Примером является набор данных варп-брейков из книги Тьюки об EDA. Есть два фактора: wool(на двух уровнях) и tension(на трех уровнях). Таблица ANOVA это:

Source       Df Sum Sq Mean Sq F value    Pr(>F)    
wool          1  450.7  450.67  3.7653 0.0582130
tension       2 2034.3 1017.13  8.4980 0.0006926
wool:tension  2 1002.8  501.39  4.1891 0.0210442
Residuals    48 5745.1  119.69

Очевидно, что взаимодействие необходимо в модели. Поэтому мы решили провести сравнение уровней каждого фактора, удерживая другой фактор фиксированным. Результаты ниже, с некоторыми аннотациями, которые будут упомянуты позже:

*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***

wool = A:   *** Family T|A ***
 contrast   estimate       SE df t.ratio
 L - M    20.5555556 5.157299 48   3.986
 L - H    20.0000000 5.157299 48   3.878
 M - H    -0.5555556 5.157299 48  -0.108

wool = B:   *** Family T|B ***
 contrast   estimate       SE df t.ratio
 L - M    -0.5555556 5.157299 48  -0.108
 L - H     9.4444444 5.157299 48   1.831
 M - H    10.0000000 5.157299 48   1.939


*** Comparison of wool for each tension ***
*** All combined: Family W ***

tension = L:   *** Family W|L ***
 contrast  estimate       SE df t.ratio
 A - B    16.333333 5.157299 48   3.167

tension = M:   *** Family W|M ***
 contrast  estimate       SE df t.ratio
 A - B    -4.777778 5.157299 48  -0.926

tension = H:   *** Family W|H ***
 contrast  estimate       SE df t.ratio
 A - B     5.777778 5.157299 48   1.120

Я думаю, что существуют разные практики, и мне интересно, какие из них наиболее распространены, и какие аргументы люди приводят за или против каждого подхода. При вычислении скорректированных значений , мы должны сделать корректировки множественности для ... $P$

каждое из пяти наименьших семейств (T | A, T | B, ..., W | H) отдельно? (Примечание: последние 3 семейства имеют только один тест, поэтому для них не будет корректировки множественности)
каждое из больших семейств (T, с 6 тестами и W, с 3 тестами) отдельно?
все тестов считаются одной большой семьей? $6+3=9$

Меня интересует как то, что люди обычно делают (даже если они мало думают об этом), так и почему (если они имеют). Я мог бы упомянуть пару вещей:

В таблице ANOVA есть 3 теста. Я не помню, чтобы кто-нибудь рассматривал поправку на множественность в тестах ANOVA. Если это так, и вы рекомендуете вариант (3), вы противоречивы? $F$
Если бы мы сделали несколько меньшего эксперимент , в котором все тесты являются менее мощными, возможно взаимодействие не было бы значительным, что приводит к гораздо меньшему числу постфактум сравнений только маргинальных средств. Более того, маргинальные средние могут иметь меньшие SE, чем клеточные средние в более крупном эксперименте. Если, кроме того, корректировка множественности менее консервативна, мы могли бы получить более «значимые» результаты с меньшим количеством данных, чем с большим количеством данных.

Интересно посмотреть, что люди говорят ...

multiple-comparisons post-hoc

— Русь Лент
источник

Никто еще не ответил, поэтому я попробую это сделать.

Это мое мнение (и я хотел бы услышать мысли других), что в этом случае вы должны приспособиться к полному 9 тестам. Предполагая, что мы используем семейную коррекцию ошибок,

Мы одновременно делаем выводы из всех 9 тестов одновременно. Т.е. сканирование по списку и поиск, чтобы найти что-нибудь значимое.
Чтобы сделать это, мы рассматриваем общий уровень ошибок по семейным обстоятельствам в 5%. Альтернативой может быть индивидуальная коррекция групп до 5% FWER. Это означало бы, что при интерпретации мы не могли бы интерпретировать тесты вместе, и скорее должны были бы взглянуть на первые 6 тестов и подумать, что есть 5% -ный шанс ложного положительного результата, а затем последовательно исследовать каждый из дальнейших тестов, зная что существует 5% вероятности ложного срабатывания для каждой группы . IMO Утилита множественной коррекции тестирования заключается в том, что мы можем одновременно сделать вывод из нескольких тестов одновременно. Кажется более логичным, что мы должны смотреть на все 9 тестов и знать, что есть 5% -ный шанс ложного срабатывания, вместо того, чтобы исследовать их отдельно, подобно тому, как вообще не исправлять.
Вопрос о корректировке трех тестов в ANOVA интересен, но, на мой взгляд, актуален только в том случае, если вы планируете сделать выбор модели, в которой вы принимаете только значимых предикторов. Это может быть хорошее чтение, особенно заключение очень краткое и отличное чтение. Я украл эту ссылку из этого вопроса. $F$
Ваша точка зрения о включении эффектов взаимодействия интересна, и я думаю, вы могли бы определить это как выбор модели. Вы бы включили эффекты взаимодействия, если бы они были значительными? В этом случае, возможно, статистика в исходном ANOVA должна была быть скорректирована для облегчения выбора значимых предикторов. $F$

В целом, я думаю, что если вы делаете одновременный вывод из группы, вы должны рассмотреть каждый тест в этой группе для исправления. В противном случае стандартное понимание частоты ошибок контролируемой группы не сохраняется, и концептуально сложно отслеживать, что было скорректировано, а что нет. Гораздо лучше, на мой взгляд, обеспечить подотчетность всех тестов и поддерживать уровень ошибок по семейным обстоятельствам на заданном пороговом уровне.

Если у вас есть какие-либо опровержения, я хотел бы услышать их, и я уверен, что некоторые люди не согласятся с некоторыми вещами здесь. Очень интересно слышать чужие мысли.

— Крис С
источник

Спасибо. Хорошо продуманный. Дополнительный вопрос: возможно ли заставить SAS сделать это? Я так не думаю, но я многое не знаю о SAS. Это актуально, потому что я думаю, что этот тип корректировки редко используется на практике.

— Расс Лент

К сожалению, я мало что знаю о SAS, извините @rvl. Может быть, кто-то еще увидит это и поможет. Я надеюсь, что вы получите еще несколько людей, которые заговорят на эту проблему, это очень хороший вопрос, что люди не часто думают об этом часто.

— Крис C

это нормально - я просто размышлял о том, что на самом деле можно легко сделать с существующим программным обеспечением. Если согласие сводится к варианту 3, нам нужна поддержка программного обеспечения для него!

— Расс Лент

... но теперь это можно сделать в R. Смотрите новый ответ, который я разместил в соответствующем вопросе, stats.stackexchange.com/questions/165125/… . Этот вопрос заставил меня задуматься об этом.

— Расс Лент

Очень круто! Вы поддерживаете lsmeans? Это было много работы для этого вопроса!

— Крис С