Отказ от ответственности: я полагаю, что этот ответ лежит в основе всего аргумента, поэтому его стоит обсудить, но я не до конца изучил проблему. Поэтому я приветствую исправления, уточнения и комментарии.
Наиболее важный аспект связан с последовательно собираемыми данными. Например, предположим, что вы наблюдали двоичные результаты, и вы увидели 10 успехов и 5 неудач. Принцип правдоподобия говорит о том, что вы должны прийти к одному и тому же выводу относительно вероятности успеха, независимо от того, собирали ли вы данные до тех пор, пока у вас не было 10 успехов (отрицательный биномиальный) или не было проведено 15 испытаний, из которых 10 были успешными (биномиальный) .
Почему это так важно?
Потому что в соответствии с принципом правдоподобия (или, по крайней мере, определенной интерпретации этого) вполне нормально позволить данным влиять, когда вы собираетесь прекратить сбор данных, без необходимости изменять свои инструменты вывода.
Конфликт с последовательными методами
Идея, заключающаяся в том, что использование ваших данных для определения того, когда следует прекратить сбор данных без изменения инструментов вывода, полностью противоречит традиционным методам последовательного анализа. Классическим примером этого являются методы, используемые в клинических испытаниях. Чтобы уменьшить потенциальное воздействие вредных обработок, данные часто анализируются в промежуточные промежутки времени, прежде чем анализ будет выполнен. Если исследование еще не закончено, но у исследователей уже есть достаточно данных, чтобы сделать вывод, что лечение работает или вредно, медицинская этика говорит нам, что мы должны остановить испытание; если лечение работает, этично прекратить испытание и начать предоставлять лечение пациентам, не участвующим в исследовании. Если это вредно, более этично остановиться, чтобы мы прекратили подвергать испытательных пациентов вредному лечению.
Проблема в том, что теперь мы начали делать множественные сравнения, поэтому мы увеличили частоту появления ошибок типа I, если не настроим наши методы для учета множественных сравнений. Это не совсем то же самое, что традиционные проблемы множественных сравнений, поскольку это действительно множественные частичные сравнения (т. Е. Если мы проанализируем данные один раз с 50% собранных данных и один раз со 100%, эти две выборки явно не являются независимыми!) , но в целом, чем больше сравнений мы делаем, тем больше нам нужно изменить наши критерии для отклонения нулевой гипотезы, чтобы сохранить частоту ошибок типа I, с большим количеством запланированных сравнений, требующих больше доказательств для отклонения нулевого значения.
Это ставит клинических исследователей перед дилеммой; хотите ли вы часто проверять свои данные, но затем увеличивать количество необходимых доказательств, чтобы отклонить нулевое значение, или же вы хотите нечасто проверять свои данные, увеличивая свои возможности, но потенциально не действуя оптимальным образом в отношении медицинской этики (то есть, можете задержать продукт на рынке или подвергать пациентов излишне длительному вредному лечению).
Я (возможно, ошибочно) понимаю, что принцип правдоподобия говорит нам, что не имеет значения, сколько раз мы проверяем данные, мы должны сделать один и тот же вывод. Это в основном говорит о том, что все подходы к разработке последовательных испытаний совершенно не нужны; просто используйте принцип правдоподобия и остановитесь, когда соберете достаточно данных, чтобы сделать вывод. Поскольку вам не нужно изменять методы вывода, чтобы скорректировать количество анализов, которые вы подготовили, дилемма между количеством проверенных раз и мощностью не компенсируется. Бэм, вся область последовательного анализа решена (согласно этой интерпретации).
Лично меня очень смущает то, что факт, хорошо известный в области последовательного проектирования, но довольно тонкий, заключается в том, что вероятность окончательной статистики теста в значительной степени изменяется правилом остановки; в основном, правила остановки увеличивают вероятность прерывистым образом в точках остановки. Вот сюжет такого искажения; пунктирная линия - это PDF итоговой статистики теста под нулевым значением, если данные анализируются только после сбора всех данных, а сплошная линия показывает распределение под нулевой статистикой теста, если вы проверяете данные 4 раза с заданным править.
С учетом вышесказанного, я понимаю, что принцип правдоподобия, по-видимому, подразумевает, что мы можем выбросить все, что мы знаем о последовательном дизайне Frequentist, и забыть о том, сколько раз мы анализируем наши данные. Очевидно, что последствия этого, особенно для области клинических разработок, огромны. Однако я не задумывался над тем, как они оправдывают игнорирование того, как правила остановки изменяют вероятность окончательной статистики.
Некоторое легкое обсуждение можно найти здесь , в основном на последних слайдах.