Если несколько сравнений «запланированы», нужно ли вам исправлять множественные сравнения?

20

Я рецензирую статью, в которой было выполнено> 15 отдельных тестов хи-квадрат 2х2. Я предположил, что им нужно исправить множественные сравнения, но они ответили, что все сравнения были запланированы, и поэтому в этом нет необходимости.

Я чувствую, что это не должно быть правильно, но я не могу найти никаких ресурсов, которые бы прямо указывали, так ли это.

Кто-нибудь может помочь с этим?

Обновить:

Спасибо за все ваши очень полезные ответы. В ответ на запрос @ gung о предоставлении дополнительной информации об исследовании и анализах они сравнивают данные подсчета для двух типов участников (студентов, не студентов) в двух условиях за три периода времени. Несколько тестов хи-квадрат 2x2 сравниваются каждый период времени, в каждом условии, для каждого типа участника (если это имеет смысл; например, учащиеся, условие 1, период времени 1 против периода времени 2), поэтому все анализы проверяют одну и ту же гипотезу ,

hypothesis-testing multiple-comparisons

— DrJay
источник

2

Многие люди, которые проводят множественные сравнения, планируют сделать все их априори . Они делают это потому, что хотят контролировать общий уровень ошибок типа I. В некоторых ситуациях может быть разумным не корректировать множественные сравнения, но это не просто вопрос планирования всех их с самого начала.

— Glen_b

3

Можете ли вы рассказать немного больше об исследовании, их данных и анализе? > 15 составляют все возможные сравнения или только небольшой процент? Сколько данных у них есть? Насколько правдоподобно, что все гипотезы были априори? Они все значимы? Являются ли тесты хи-квадрат независимыми друг от друга? Также рассмотрите некоторые вопросы, поднятые в ответе @ peuhp.

— gung - Восстановить Монику

4

Поскольку «они», вероятно, заинтересованы в получении значительных результатов, их ответ корыстен. Поэтому бремя для них состоит в том, чтобы продемонстрировать, почему их подход является законным, а не в том, чтобы показать, что они незаконны. Любая попытка показать, что множественными исправлениями сравнения можно пренебречь, потерпит неудачу, как только будет учтена ложноположительная оценка по всей бумаге, и поэтому «они» должны либо (неискренне) избегать всякого рассмотрения этого вопроса, либо предоставить хороший аргумент относительно того, почему это не касается их предполагаемой аудитории.

— whuber

1

Мне бы очень хотелось ответить ссылкой на эту полосу XKCD (которая, как вы можете заметить, включает в себя полностью запланированную серию нескольких тестов ...).

— Ильмари

21

Это ИМХО сложный вопрос, и я хотел бы сделать три комментария об этой ситуации.

Во-первых, и в целом, я бы больше сосредоточился на том, сталкиваетесь ли вы с подтверждающим исследованием с набором правильных гипотез, определенных в аргументативном контексте, или с пояснительным исследованием, в котором наблюдаются многие вероятные показатели, а не запланированные или нет (потому что вы можете просто планирую сделать все возможные сравнения).

Во-вторых, я бы также остановился на том, как обсуждаются полученные значения p. Используются ли они по отдельности, чтобы служить набору окончательных выводов, или они совместно обсуждаются в качестве доказательств и отсутствия доказательств?

Наконец, я хотел бы обсудить возможность того, что гипотеза> 15, полученная из> 15 отдельных критериев хи-квадрат, на самом деле является выражением нескольких гипотез (возможно, одной), которые могут быть обобщены.

В более общем смысле, независимо от того, задана ли гипотеза или нет, исправление множественных сравнений или нет - это вопрос того, что вы включаете в ошибку I типа. Не корректируя MC, вы сохраняете только контроль ошибок по типу I сравнения. Таким образом, в случае многочисленных сравнений, вы имеете высокий уровень ошибок по типу семьи и, следовательно, более склонны к ложному обнаружению.

— peuhp
источник

8

(+1) Возможно, стоит отметить, что частота ошибок в эксперименте не контролируется планируемыми пятнадцатью индивидуальными сравнениями; с другой стороны, возможные поправки за пределы пятнадцати, не предусмотренные в протоколе, не должны приниматься во внимание при коррекции множественных сравнений.

— Scortchi - Восстановить Монику

@Scortchi Спасибо за ваш вклад, но я не понимаю, что вы подразумеваете под "экспериментальной частотой ошибок, которая не контролируется планируемыми пятнадцатью индивидуальными сравнениями"?

— peuhp

1

Просто базовый момент: если вы хотите контролировать вероятность того, что во время всех этих тестов возникнет одна или несколько ошибок типа I, вам нужно использовать процедуру множественного сравнения. Я упоминаю об этом только потому, что раньше сталкивался с путаницей по этому вопросу.

— Scortchi - Восстановить Монику

2

Обратите внимание, что эта точно такая же проблема возникла в очень недавней ветке: Post Hoc приложение множественных сравнений .

— Майкл Р. Черник

1

@Scortchi. Хорошо, спасибо за это разъяснение и вклад, это действительно должно быть четко указано в моем ответе. Добавлю это.

— peuhp

5

Учитывая ваше обновление дизайна, я бы предложил, чтобы они выполнили некоторую форму линейно-линейной модели, чтобы использовать все данные одновременно. Выполнение анализа по кусочкам еды, которое они сделали, кажется (а) неэффективным (б) ненаучным, поскольку оно проверяет 15 гипотез, где, конечно, меньше реальных гипотез.

Я не фанат исправления множественности как условного рефлекса, но в этом случае, если они отвергают более глубокий аналитический подход, я бы предложил, чтобы они исправились.

— mdewey
источник

1

k

$k$

15

$15$

1

χ^{2}

$\chi^2$

4

Если вы замените слово «преднамеренный» словом «запланированный», это может помочь развеять аргумент, предложенный авторами. Рассмотрим два разных статистических анализа одних и тех же данных:

«Преднамеренное преступление», при котором каждый возможный тест гипотезы заранее вырабатывается комбинаторно «статистическим преступным вдохновителем», при этом план состоит в том, чтобы систематически проверять каждое из них и выбирать тест с наименьшим p-значением в качестве «ключевого фактора» продвигать в разделах «Результаты», «Обсуждение» и «Заключение» документа, а также заголовок.
«Преступление страсти», при котором первоначальное намерение состояло в том, чтобы просто сопоставить данные с одной гипотезой, но «хорошо ... одно ведет к другому», а многочисленные специальные тесты гипотез «просто случаются» в пылу научной страсти к узнать "что-то ... что-нибудь! " из данных.

В любом случае, это «убийство» - вопрос в том, в первой или второй степени. Понятно, что первое морально более проблематично. Мне кажется, что авторы здесь пытаются что-то заявить о том, что это не убийство, потому что оно было преднамеренным.

— Дэвид С. Норрис
источник

4

Но многократное сравнение не является преднамеренным преступлением или нет. П-охота есть.

— Клифф AB

1

В этом документе непосредственно рассматривается ваш вопрос: http://jrp.icaap.org/index.php/jrp/article/view/514/417.

(Фрэн, А.В., «Тесты плановой гипотезы не обязательно освобождаются от корректировки множественности», Журнал исследовательской практики, 2015)

— Бонферони
источник