У вас не может быть правила остановки без некоторого представления о вашем распределении и размере эффекта - чего вы априори не знаете.
Также да, нам нужно сосредоточиться на величине эффекта - и никогда не считалось правильным рассматривать только p-значения, и мы, конечно, не должны показывать таблицы или графики, которые показывают p-значения или F-значения, а не размер эффекта.
Существуют проблемы с традиционным тестом статистического вывода гипотез (который, по словам Коэна, достоин своей аббревиатуры, и Фишер и Пирсон оба перевернулись бы в могилах, если бы увидели все, что делается сегодня под их жестко противоположными именами).
Чтобы определить N, вам необходимо уже определить целевую значимость и порог мощности, а также сделать много предположений о распределении, и, в частности, вам также необходимо определить величину эффекта, который вы хотите установить. Абсолютно верно, что это должно быть отправной точкой - какой минимальный размер эффекта будет экономически эффективным!
«Новая статистика» рекомендует показывать размеры эффекта (как парное различие, где это уместно), а также связанные стандартные отклонения или дисперсию (потому что нам нужно понять распределение), а также стандартные отклонения или доверительные интервалы (но последнее уже фиксация значения p и принятие решения о том, предсказываете ли вы направление или ставку в одну сторону). Но установление минимального эффекта для указанного знака с помощью научного прогноза проясняет это, хотя преднаучным значением по умолчанию является метод проб и ошибок и просто поиск различий. Но опять же вы сделали предположения о нормальности, если вы пойдете этим путем.
Другой подход заключается в использовании блочных графиков в качестве непараметрического подхода, но условные обозначения усов и выбросов сильно различаются и даже тогда сами по себе берут начало в предположениях распределения.
Проблема остановки действительно не является проблемой отдельного исследователя, устанавливающего или не устанавливающего N, но в том, что у нас есть целое сообщество тысяч исследователей, где 1000 намного больше, чем 1 / альфа для традиционного уровня 0,05. В настоящее время предлагается предложить предоставить сводную статистику (среднее значение, stddev, stderr - или соответствующие «непараметрические версии - медиана и т. Д., Как в случае с коробчатым графиком) для облегчения мета-анализа и представления объединенных результатов всех экспериментов, независимо от того, происходят ли они». достиг определенного уровня альфа или нет.
Тесно связана проблема множественного тестирования, которая так же чревата трудностями, и где эксперименты носят слишком упрощенный характер во имя сохранения мощности, в то время как для анализа результатов предлагаются сверхсложные методологии.
Я не думаю, что может быть глава учебника, имеющая дело с этим окончательно еще, поскольку у нас все еще есть небольшое представление о том, что мы делаем ...
На данный момент лучший подход, вероятно, заключается в том, чтобы продолжать использовать традиционную статистику, наиболее подходящую для проблемы, в сочетании с отображением сводной статистики - эффект и стандартная ошибка, а N является наиболее важным. Использование доверительных интервалов в основном эквивалентно соответствующему T-критерию, но позволяет более осмысленно сравнивать новые результаты с опубликованными, а также позволяет создать идеал, способствующий воспроизводимости, и опубликовать воспроизведенные эксперименты и мета-анализы.
С точки зрения теоретико-информационного или байесовского подходов, они используют разные инструменты и делают разные предположения, но по-прежнему не имеют ответов на все вопросы, и, в конце концов, сталкиваются с одинаковыми или худшими проблемами, потому что байесовский вывод отступает от окончательного решения ответить и просто приводит доказательства относительно предполагаемых или отсутствующих приоры.
В конце концов, у машинного обучения также есть результаты, которые нужно учитывать для значимости - часто с КИ или Т-тестом, часто с графиками, которые, скорее всего, соединяют, а не просто сравнивают, и используют версии с соответствующей компенсацией, когда распределения не совпадают. Он также имеет свои противоречия по поводу начальной загрузки и перекрестной проверки, а также смещения и дисперсии. Хуже всего то, что у него есть склонность генерировать и тестировать множество альтернативных моделей, просто путем тщательной параметризации всех алгоритмов в одном из множества наборов инструментов, примененных к наборам данных, тщательно заархивированным для проведения необузданного многократного тестирования. Хуже всего то, что он все еще находится в темных веках, используя точность, или, что еще хуже, F-меру для оценки, а не методы, исправляющие случайность.
Я прочитал десятки статей по этим вопросам, но не смог найти ничего полностью убедительного - за исключением статей с отрицательным опросом или мета-анализом, которые, кажется, указывают на то, что большинство исследователей не обрабатывают и не интерпретируют статистику должным образом в отношении какого-либо «стандарта». "старый или новый. Мощность, многократное тестирование, определение размера и ранняя остановка, интерпретация стандартных ошибок и доверительных интервалов ... это лишь некоторые из проблем.
Пожалуйста, застрелите меня - я хотел бы оказаться неправым! На мой взгляд, там много воды, но мы еще не нашли ребенка! На этом этапе ни один из экстремальных взглядов или подходов имени бренда не выглядит многообещающим как ответ, и те, кто хочет выбросить все остальное, вероятно, потеряли ребенка.