Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это широко признается как очень некорректный метод анализа (если только не все шаги четко определены и тщательно спланированы заранее).
При этом адаптивный анализ данных, как правило, состоит в том, сколько исследователей фактически проводят свои анализы, к большому разочарованию статистиков. Таким образом, если бы можно было сделать это статистически обоснованным образом, это произвело бы революцию в статистической практике.
Следующая научная статья утверждает, что нашла способ сделать это (я извиняюсь за платный доступ, но если вы в университете, у вас, вероятно, есть доступ): Dwork et al, 2015, Многоразовое воздержание: сохранение достоверности в адаптивном анализе данных ,
Лично я всегда скептически относился к статистическим статьям, публикуемым в журнале Science , и эта статья ничем не отличается. Фактически, после прочтения статьи дважды, включая дополнительный материал, я не могу понять (вообще), почему авторы утверждают, что их метод предотвращает чрезмерную подгонку.
Насколько я понимаю, у них есть набор данных, который они будут использовать повторно. Похоже, что они «размывают» вывод подтверждающего анализа в наборе данных удержания, переопределение будет предотвращено (стоит отметить, что размытие, кажется, просто добавляет шум, если вычисленная статистика по обучающим данным достаточно далеко из рассчитанной статистики по данным удержания ). Насколько я могу судить, нет реальной причины, по которой это должно предотвратить переоснащение.
Я ошибаюсь в том, что предлагают авторы? Есть ли какой-то тонкий эффект, который я пропускаю? Или Наука одобрила худшую статистическую практику до настоящего времени?