В последние несколько лет различные ученые поднимали пагубную проблему проверки научной гипотезы, получившую название «степень свободы исследователя», что означает, что ученые имеют множество вариантов выбора в ходе анализа, которые смещаются в сторону обнаружения с p-значением <5%. Эти неоднозначные варианты выбора, например, включают в себя случай, который классифицируется как выброс, выполнение многочисленных спецификаций модели, пока что-то не появится, не публикуйте нулевые результаты и т. Д. (Статья, которая вызвала эту дискуссию в психологии, здесь , посмотрите популярную статью Slate и последующие дебаты Эндрю Гельмана здесь , и журнал Time также затрагивает эту тему здесь .)
Сначала один уточняющий вопрос:
Журнал Time написал:
«Степень 0,8 означает, что из десяти проверенных истинных гипотез исключены будут только две, поскольку их влияние не отражено в данных»;
Я не уверен, как это вписывается в определение степенной функции, которое я нашел в учебнике, - это вероятность отклонения нуля как функции параметра . С разной у нас разная сила, поэтому я не совсем понимаю приведенную выше цитату.
Во-вторых , некоторые последствия для исследований:
В моей области политической науки / экономики ученые просто используют все имеющиеся данные по годам в стране. Таким образом, мы не должны быть обеспокоены образцом возиться здесь?
Может ли быть решена проблема запуска нескольких тестов, но сообщая только об одной модели, просто из-за того, что кто-то еще в дисциплине повторно проверит вашу статью и немедленно ударит вас за отсутствие надежных результатов? Предвидя это, ученые в моей области, скорее всего, включат
robustness check
раздел, где они показывают, что несколько спецификаций модели не изменяют результат. Достаточно ли этого?Эндрю Гельман и другие поднимают вопрос о том, что независимо от данных всегда можно найти и опубликовать некий «шаблон», которого на самом деле нет. Но это не должно вызывать беспокойства, учитывая тот факт, что любая эмпирическая «модель» должна поддерживаться теорией, а конкурирующие теории в рамках дисциплины будут просто участвовать в дебатах / гонках, чтобы найти, какой лагерь способен найти больше «моделей» в разных местах. Если паттерн действительно ложный, то теория, лежащая в основе, будет быстро разрушена, если в других сэмплах / настройках нет аналогичного паттерна. Разве так не развивается наука?
Предполагая, что текущая тенденция журналов с нулевым результатом действительно будет процветать, есть ли способ объединить все нулевые и положительные результаты вместе и сделать вывод о теории, которую они все пытаются проверить?