Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь:
- анализ только «интересного» подмножества данных , в котором был найден паттерн;
- отсутствие правильной настройки для многократного тестирования , особенно после специального тестирования, и отсутствие отчета о проведенных тестах, которые не были значительными;
- пробовать разные тесты одной и той же гипотезы , например, как параметрический, так и непараметрический тест (об этом есть обсуждение в этой теме ), но сообщать только о наиболее значимых;
- экспериментируя с включением / исключением точек данных , пока не будет получен желаемый результат. Одна возможность появляется, когда «выбросы при очистке данных», а также при применении неоднозначного определения (например, в эконометрическом исследовании «развитых стран», разные определения дают разные наборы стран) или качественные критерии включения (например, в метаанализе). , это может быть точно сбалансированный аргумент, является ли методология конкретного исследования достаточно надежной для включения);
- предыдущий пример связан с необязательной остановкой , т. е. анализом набора данных и принятием решения о том, собирать ли больше данных или нет, в зависимости от собранных данных («это почти значимо, давайте измерим еще трех студентов!») без учета этого в анализе;
- экспериментирование во время подбора модели , особенно ковариат для включения, но также в отношении преобразования данных / функциональной формы.
Итак, мы знаем, что p- хакерство может быть сделано. Он часто упоминается как одна из «опасностей p- значения» и упоминается в отчете ASA о статистической значимости, который обсуждается здесь при перекрестной проверке , поэтому мы также знаем, что это плохо. Хотя некоторые сомнительные мотивы и (особенно в конкурсе на академическую публикацию) контрпродуктивные стимулы очевидны, я подозреваю, что трудно понять, почему это сделано, будь то преднамеренная халатность или простое невежество. Кто-то сообщает о p-значениях из ступенчатой регрессии (потому что они находят ступенчатые процедуры, «производящие хорошие модели», но не знают предполагаемого p-значения аннулируются) находится в последнем лагере, но эффект все равно р -hacking под последним из моих пунктов маркированных выше.
Несомненно, есть доказательства того, что p- хакерство «существует», например, Head et al (2015) ищет контрольные признаки того, что он заражает научную литературу, но каково текущее состояние нашей доказательной базы по этому поводу? Я знаю, что подход, использованный Head et al, не обошелся без противоречий, поэтому текущее состояние литературы или общее мышление в академическом сообществе было бы интересно. Например, есть ли у нас представление о:
- Насколько он распространен и в какой степени мы можем отличить его появление от предвзятости публикации ? (Является ли это различие даже значимым?)
- Различаются ли схемы в p- хакерстве между академическими областями?
- Есть ли у нас представление о том, какие из механизмов p- хакерства (некоторые из которых перечислены в пунктах выше) наиболее распространены? Оказалось ли, что некоторые формы труднее обнаружить, чем другие, потому что они «лучше замаскированы»?
Рекомендации
Руководитель, ML, Холман, Л., Ланфир, Р., Кан, AT, & Jennions, MD (2015). Масштабы и последствия p- хакерства в науке . PLoS Biol , 13 (3), e1002106.