Проблема с рыболовными экспедициями заключается в следующем: если вы проверите достаточно гипотез, одна из них будет подтверждена с низким значением p. Позвольте мне привести конкретный пример.
Представьте, что вы проводите эпидемиологическое исследование. Вы нашли 1000 пациентов, которые страдают от редкого заболевания. Вы хотите знать, что у них общего. Итак, вы начинаете тестирование - вы хотите увидеть, чрезмерно ли представлена конкретная характеристика в этом образце. Сначала вы проверяете пол, расу, определенную семейную историю (отец умер от болезни сердца до 50 лет,…), но в конце концов, когда у вас возникают проблемы с поиском чего-либо, что «прилипает», вы начинаете добавлять все виды других факторов, которые просто может относиться к заболеванию:
- вегетарианец
- путешествовал в Канаду
- закончил колледж
- Женат
- имеет детей
- есть кошки
- есть собаки
- выпивает не менее 5 стаканов красного вина в неделю
...
Теперь вот вещь. Если я выберу достаточное количество «случайных» гипотез, то становится вероятным, что хотя бы одна из них приведет к значению ap меньше 0,05 - потому что самой сущностью значения p является «вероятность ошибочности отклонения нулевой гипотезы, когда не влияет ". Иными словами - в среднем, на каждые 20 поддельных гипотез, которые вы тестируете, одна из них даст вам ap <0,05 .
Это очень хорошо изложено в мультфильме XKCD http://xkcd.com/882/ :
Трагедия заключается в том, что даже если отдельный автор не выполняет 20 различных тестов гипотез на выборке, чтобы найти значимость, возможно, 19 других авторов делают то же самое; и тот, кто «находит» корреляцию, теперь должен написать интересную статью, и тот, который, вероятно, будет принят для публикации…
Это приводит к печальной тенденции к невоспроизводимым результатам. Лучший способ защититься от этого как отдельного автора - установить планку выше. Вместо того, чтобы проверять отдельный фактор, спросите себя: «Если я проверяю N гипотез, какова вероятность того, что получится хотя бы один ложноположительный результат». Когда вы действительно проверяете «рыболовные гипотезы», вы можете подумать о внесении поправки Бонферрони, чтобы защититься от этого - но люди часто этого не делают.
Д-р Иоаннидес опубликовал несколько интересных статей, опубликованных специально для этой темы в «Атлантическом месяце» .
Смотрите также этот предыдущий вопрос с несколькими проницательными ответами.
Обновление, чтобы лучше ответить на все аспекты вашего вопроса:
Если вы боитесь, что вы можете «ловить рыбу», но вы действительно не знаете, какую гипотезу сформулировать, вы определенно можете разделить свои данные на разделы «разведка», «репликация» и «подтверждение». В принципе, это должно ограничить вашу подверженность рискам, описанным ранее: если у вас есть значение р 0,05 в данных разведки, и вы получаете аналогичное значение в данных репликации и подтверждения, ваш риск ошибиться снижается. Хороший пример «сделать все правильно» был показан в Британском медицинском журнале (очень уважаемая публикация с импакт-фактором 17+)
Изучение и подтверждение факторов, связанных с неосложненной беременностью у неродившихся женщин: проспективное когортное исследование, Chappell et al.
Вот соответствующий параграф:
Мы разделили набор данных 5628 женщин на три части: набор данных разведки двух третей женщин из Австралии и Новой Зеландии, выбранных случайным образом (n = 2129); набор данных локальной репликации оставшейся трети женщин из Австралии и Новой Зеландии (n = 1067); и внешний, географически различный подтверждающий набор данных 2432 европейских женщин из Соединенного Королевства и Ирландской Республики.
Возвращаясь немного к литературе, есть хорошая статья Альтмана и др., Озаглавленная «Прогнозирование и прогностические исследования: проверка прогностической модели», которая углубляется в глубину и предлагает способы убедиться, что вы не впадаете в эта ошибка. «Основные моменты» из статьи:
Непроверенные модели не должны использоваться в клинической практике. При валидации прогностической модели следует оценивать калибровку и дискриминацию. Валидация должна проводиться на основе данных, отличных от тех, которые использовались для разработки модели, предпочтительно от пациентов в других центрах. Модели могут плохо работать на практике. из-за недостатков в методах разработки или потому, что новый образец слишком отличается от исходного
В частности, обратите внимание на предложение о том, что проверка должна быть проведена (я перефразирую) с данными из других источников - т.е. недостаточно разделить ваши данные произвольно на подмножества, но вы должны сделать все возможное, чтобы доказать, что «обучение» на множестве из одного набора экспериментов можно применять к данным из другого набора экспериментов. Это более высокая планка, но она дополнительно снижает риск того, что систематическое смещение в вашей настройке приведет к «результатам», которые невозможно проверить независимо.
Это очень важный вопрос - спасибо за вопрос!