Полезность величин эффектов относительно p-значений (а также других метрик статистического вывода) обычно обсуждается в моей области - психологии - и в настоящее время дискуссия «горячее», чем обычно, по причинам, относящимся к вашему вопросу. И хотя я уверен, что психология не обязательно является самой сложной в статистическом отношении научной областью, она с готовностью обсуждала, изучала, а иногда и демонстрировала, ограничения различных подходов к статистическому выводу или, по крайней мере, то, как они ограничены использованием человеком. Уже опубликованные ответы включают в себя хорошее понимание, но в случае, если вас интересует более обширный список (и ссылки) причин за и против каждого, см. Ниже.
Почему р-значения нежелательны?
- Как отмечает Даррен Джеймс (и его симуляция), p-значения в значительной степени зависят от количества наблюдений, которые у вас есть (см. Kirk, 2003).
- Как отмечает Джон, p-значения представляют условную вероятность наблюдения данных как экстремальную или более экстремальную, учитывая, что нулевая гипотеза верна. Поскольку большинство исследователей предпочли бы иметь вероятности исследовательской гипотезы и / или нулевой гипотезы, значения p не говорят с вероятностями, которые наиболее интересуют исследователей (т. Е. С нулевой или исследовательской гипотезой, см. Dienes, 2008).
- Многие, кто использует p-значения, не понимают, что они означают / не значат (Schmidt & Hunter, 1997). Ссылка Майкла Лью на статью Гельмана и Стерна (2006) еще раз подчеркивает недопонимание исследователя о том, что можно (или нельзя) интерпретировать из p-значений. И как относительно недавняя история на FiveThirtyEight , это продолжает иметь место.
- p-значения не велики при прогнозировании последующих p-значений (Cumming, 2008)
- p-значения часто искажаются (чаще раздувают значимость), а неправильная отчетность связана с нежеланием делиться данными (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- Значения p могут (и исторически были) активно искажены из-за аналитической гибкости, и поэтому не заслуживают доверия (John et al., 2012; Simmons et al., 2011)
- Значения р несоразмерно значимы, поскольку академические системы, по-видимому, вознаграждают ученых за статистическую значимость за научную точность (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Почему желательны размеры эффекта?
Обратите внимание, что я интерпретирую ваш вопрос как относящийся конкретно к стандартизированным величинам эффекта, поскольку вы говорите, что они позволяют исследователям преобразовывать свои выводы в «ОБЩУЮ метрику».
- Как указывают Джон и Даррен Джеймс, величины эффекта указывают на величину эффекта, независимо от числа наблюдений (Американская психологическая ассоциация 2010; Камминг, 2014), в отличие от принятия дихотомических решений о том, присутствует ли эффект или нет.
- Размеры эффекта ценны, потому что они делают возможным мета-анализ, а мета-анализ способствует накоплению знаний (Borenstein et al., 2009; Chan & Arvey, 2012)
- Размеры эффекта помогают упростить планирование размера выборки с помощью априорного анализа мощности и, следовательно, эффективного распределения ресурсов в исследованиях (Cohen, 1992)
Почему р-значения желательны?
Хотя они реже поддерживаются, р-значения имеют ряд льгот. Некоторые из них известны и давно, в то время как другие являются относительно новыми.
Значения P обеспечивают удобный и знакомый показатель силы доказательств против нулевой гипотезы статистической модели.
При правильном расчете p-значения обеспечивают возможность принятия дихотомических решений (которые иногда необходимы), а p-значения помогают поддерживать долгосрочный уровень ложноположительных ошибок на приемлемом уровне (Dienes, 2008; Sakaluk, 2016) [It не совсем правильно говорить, что P-значения необходимы для дихотомических решений. Они действительно широко используются таким образом, но Нейман и Пирсон использовали «критические области» в тестовом статистическом пространстве для этой цели. Смотрите этот вопрос и его ответы]
- Значения p могут использоваться для обеспечения непрерывно эффективного планирования размера выборки (а не только однократного анализа мощности) (Lakens, 2014)
- Значения p могут использоваться для облегчения мета-анализа и оценки доказательной ценности (Simonsohn et al., 2014a; Simonsohn et al., 2014b). См. Этот пост для ознакомления с тем, как таким образом можно использовать распределения p-значений, а также этот пост CV. для соответствующего обсуждения.
- Значения p можно использовать в качестве судебно-медицинской экспертизы, чтобы определить, могли ли быть использованы сомнительные методы исследования и насколько могут быть воспроизведены результаты (Schimmack, 2014; см. также приложение Schönbrodt, 2015)
Почему размер эффекта нежелателен (или переоценен)?
Возможно, самая нелогичная позиция для многих; почему сообщение о стандартных величинах эффекта было бы нежелательным или, по крайней мере, завышенным?
- В некоторых случаях стандартизированные размеры эффекта - это еще не все, что им нужно (например, Greenland, Schlesselman & Criqui, 1986). В частности, у Baguely (2009) есть хорошее описание некоторых причин, по которым необработанные / нестандартные величины эффекта могут быть более желательными.
- Несмотря на свою полезность для априорного анализа мощности, размеры эффекта фактически не используются надежно для облегчения эффективного планирования размера выборки (Maxwell, 2004)
- Даже когда размеры эффекта используются при планировании размера выборки, поскольку они завышены из-за систематической ошибки публикации (Rosenthal, 1979), опубликованные размеры эффекта представляют сомнительную пользу для надежного планирования размера выборки (Simonsohn, 2013).
- Оценки величины эффекта могут быть - и были - систематически неправильно рассчитаны в статистическом программном обеспечении (Levine & Hullet, 2002)
- Размеры эффекта ошибочно извлекаются (и, вероятно, неправильно сообщаются), что подрывает достоверность метаанализа (Gøtzsche et al., 2007)
- Наконец, исправление смещения публикаций в размерах эффекта остается неэффективным (см. Carter et al., 2017), что, если вы считаете, что смещение публикаций существует, делает метаанализ менее эффективным.
Резюме
Повторяя точку зрения Майкла Лью, p-значения и величины эффекта - это всего лишь два статистических доказательства; Есть и другие, которые стоит рассмотреть. Но, как и значения p и величины эффекта, другие метрики доказательной ценности также имеют общие и уникальные проблемы. Исследователи обычно неправильно применяют и неверно истолковывают доверительные интервалы (например, Hoekstra et al., 2014; Morey et al., 2016), а результаты байесовского анализа могут искажаться исследователями, как при использовании значений p (например, Симонсона). 2014).
Все метрики доказательств выиграли, и все должны иметь призы.
Ссылки
Американская Психологическая Ассоциация. (2010). Руководство по публикации Американской психологической ассоциации (6-е издание). Вашингтон, округ Колумбия: Американская психологическая ассоциация.
Baguley, T. (2009). Стандартизированный или простой размер эффекта: о чем следует сообщать? Британский журнал психологии, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). (Неправильное) представление статистических результатов в психологических журналах. Методы исследования поведения, 43 (3), 666-678.
Боренштейн М., Хеджес Л.В., Хиггинс Дж. И Ротштейн Г.Р. (2009). Введение в метаанализ. Западный Суссекс, Великобритания: John Wiley & Sons, Ltd.
Картер, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 августа). Исправление предвзятости в психологии: сравнение метааналитических методов. Получено с osf.io/preprints/psyarxiv/9h3nu
Чан, ME & Arvey, RD (2012). Мета-анализ и развитие знаний. Перспективы психологических наук, 7 (1), 79-92.
Коэн, J. (1992). Энергетический праймер. Психологический вестник, 112 (1), 155-159.
Камминг Г. (2008). Репликация и интервалы p: значения p предсказывают будущее лишь неопределенно, но доверительные интервалы работают намного лучше. Перспективы психологических наук, 3, 286–300.
Dienes, D. (2008). Понимание психологии как науки: введение в научный и статистический вывод. Нью-Йорк, Нью-Йорк: Palgrave MacMillan.
Fanelli, D. (2010). «Позитивные» результаты увеличивают иерархию наук. PloS one, 5 (4), e10068.
Gelman, A. & Stern, H. (2006). Разница между «значимым» и «несущественным» сама по себе не является статистически значимой. Американский статистик, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. & Tendal, B. (2007). Ошибки извлечения данных в мета-анализе, которые используют стандартизированные средние различия. JAMA, 298 (4), 430-437.
Гренландия, С., Шлессельман, JJ & Criqui, MH (1986). Ошибочность использования стандартизированных коэффициентов регрессии и корреляций в качестве меры эффекта. Американский журнал эпидемиологии, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Надежная неверная интерпретация доверительных интервалов. Психономический бюллетень и обзор, 21 (5), 1157-1164.
John, LK, Loewenstein, G. & Prelec, D. (2012). Измерение распространенности сомнительной исследовательской практики с стимулами для правды. PsychologicalSscience, 23 (5), 524-532.
Кирк, RE (2003). Важность величины эффекта. В SF Дэвис (ред.), Справочник методов исследования в экспериментальной психологии (стр. 83–105). Малден, Массачусетс: Блэквелл.
Лакенс Д. (2014). Эффективное проведение мощных исследований с последовательным анализом. Европейский журнал социальной психологии, 44 (7), 701-710.
Levine, TR & Hullett, CR (2002). Эта квадрат, частичная эта квадрат, и неверный отчет о величине эффекта в исследованиях коммуникации. Human Communication Research, 28 (4), 612-625.
Максвелл, SE (2004). Постоянство слабых исследований в психологических исследованиях: причины, последствия и средства правовой защиты. Психологические методы, 9 (2), 147.
Морей Р.Д., Хукстра Р., Роудер Дж.Н., Ли М.Д. и Вагенмакерс Э.Дж. (2016). Ошибка уверенности в доверительных интервалах. Психономический бюллетень и обзор, 23 (1), 103-123.
Носек Б.А., Шпионы Дж.Р. и Мотил М. (2012). Научная утопия: II. Перестройка стимулов и практики для продвижения правды над публикуемостью. Перспективы психологических наук, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp S., & Wicherts, JM (2016). Распространенность ошибок статистической отчетности в психологии (1985–2013). Методы исследования поведения, 48 (4), 1205-1226.
Розенталь Р. (1979). Проблема с ящиком файлов и допуск для нулевых результатов. Психологический вестник, 86 (3), 638-641.
Сакалук, JK (2016). Изучение малого, подтверждение большого: альтернативная система для новой статистики для продвижения кумулятивных и воспроизводимых психологических исследований. Журнал экспериментальной социальной психологии, 66, 47-54.
Schimmack, U. (2014). Количественная оценка достоверности статистических исследований: индекс воспроизводимости. Получено с http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Восемь распространенных, но ложных возражений против прекращения значимого тестирования при анализе данных исследований. В LL Harlow, SA Mulaik и JH Steiger (Eds.), Что если бы не было тестов значимости? (стр. 37–64). Махва, Нью-Джерси: Эрлбаум.
Schönbrodt, FD (2015). p-checker: универсальный анализатор p-значений. Получено с http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука, 22 (11), 1359-1366.
Simonsohn, U. (2013). Глупость мощных репликаций, основанная на наблюдаемой величине эффекта. Получено с http://datacolada.org/4
Simonsohn, U. (2014). Задний взлом. Получено с http://datacolada.org/13 .
Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). P-образная кривая: ключ к выдвижному ящику. Журнал экспериментальной психологии: общий, 143 (2), 534-547.
Саймонсон У., Нельсон Л.Д. и Симмонс Дж.П. (2014). Кривая P и размер эффекта: исправление смещения публикации с использованием только значимых результатов. Перспективы психологических наук, 9 (6), 666-681.
Wicherts, JM, Bakker, M. & Molenaar, D. (2011). Готовность делиться данными исследований связана с убедительностью доказательств и качеством представления статистических результатов. PloS one, 6 (11), e26828.