Психологический журнал запретил р-значения и доверительные интервалы; действительно ли разумно прекратить их использование?

73

25 февраля 2015 года журнал « Базовая и прикладная социальная психология» опубликовал редакционную статью, запрещающую и доверительные интервалы во всех будущих статьях. $p$

В частности, они говорят (форматирование и акцент мои):

[...] перед публикацией авторы должны будут удалить все остатки NHSTP [процедура проверки значимости нулевой гипотезы] ( , , , утверждения о «значительных» различиях или их отсутствии , и так далее). $p$ $t$ $F$

По аналогии с тем, как NHSTP не может обеспечить вероятность нулевой гипотезы, которая необходима для веских аргументов в пользу ее отклонения, доверительные интервалы не дают веских оснований для вывода о том, что интересующий параметр совокупности, вероятно, будет в пределах заявленной интервал. Следовательно, доверительные интервалы также запрещены в BASP.

[...] в отношении байесовских процедур мы оставляем за собой право выносить индивидуальные суждения, и, таким образом, байесовские процедуры не требуются и не запрещаются BASP.

[...] Требуются ли какие-либо логические статистические процедуры? - Нет [...] Однако BASP потребует строгой описательной статистики, включая размеры эффекта.

Давайте не будем обсуждать проблемы и неправильное использование значений здесь; уже есть множество отличных обсуждений CV, которые можно найти, просмотрев тег p-value . Критика значений часто сочетается с рекомендацией сообщать доверительные интервалы для параметров, представляющих интерес. Например, в этом очень аргументированном ответе @gung предлагает сообщать размеры эффекта с доверительными интервалами вокруг них. Но этот журнал также запрещает доверительные интервалы. $p$ $p$

Каковы преимущества и недостатки такого подхода к представлению данных и экспериментальных результатов по сравнению с «традиционным» подходом с , доверительными интервалами и значительной / незначимой дихотомией? Реакция на этот запрет представляется в основном негативной; так какие же тогда недостатки? Американская статистическая ассоциация даже опубликовала краткий обескураживающий комментарий по поводу этого запрета, заявив, что «эта политика может иметь свои негативные последствия». Каковы могут быть эти негативные последствия? $p$

Или, как предложил @whuber, следует ли вообще отстаивать этот подход в качестве парадигмы количественного исследования? И если нет, то почему?

PS. Обратите внимание, что мой вопрос не о самом запрете ; речь идет о предлагаемом подходе. Я также не спрашиваю о частых и байесовских умозаключениях. Редакция довольно негативно относится и к байесовским методам; так что в основном речь идет об использовании статистики, а не об использовании статистики вообще.

Другие обсуждения: Reddit , Гельман .

— amoeba
источник

14

Существует однозначное соответствие между значениями p и доверительными интервалами в моделях линейной регрессии, поэтому я не вижу веской причины, по которой запрещение значений p, но сохранение доверительных интервалов имело бы смысл. Но запрет как p-значений, так и доверительных интервалов оставляет пробел в описании результатов ... Интересно, позволяют ли они сообщать о стандартных ошибках (это было бы еще одним показателем той же группы сопоставления один к одному).

— Ричард Харди

7

Все может быть использовано не по назначению, так что запрещать подобные вещи, ну ... странно. Я не фанат p-значений, но это кажется довольно наивным подходом к проблеме. Одна вещь поощряет использовать правильные вещи, но запрет вещей не походит на правильный способ справиться с проблемой ...

— Тим

12

Отличная идея. Использование статистики просто скрывает ненаучный характер этой области.

— Аксакал

4

Это кажется полной чрезмерной реакцией на разочарование по поводу неправильного использования значений p. Я был бы намного счастлив с запретом неправильного использования значений p, а не значений p в целом.

— TrynnaDoStat

8

Четвёртый пункт в вашем списке предполагает, что они не требуют точечных оценок, которые могут быть логическими выводами, а размерами эффектов, о которых сообщается просто в качестве описательной статистики. (Тем не менее, несколько строчек в редакционной статье: «мы поощряем использование более крупных размеров выборки, чем обычно во многих психологических исследованиях, потому что с увеличением размера выборки описательная статистика становится все более стабильной, а ошибка выборки становится меньшей проблемой». Я с нетерпением жду призыва редакции 2016 года провести исследование по формализации этого понятия стабильности и количественного учета последствий ошибки выборки.)

— Scortchi - Восстановить Монику

23

Первое предложение текущей редакции 2015 года, на которое ссылается ФП, гласит:

Базовая и прикладная социальная психология (BASP) 2014 года Редакция * подчеркнула *, что процедура проверки значимости нулевой гипотезы (NHSTP) недействительна ...

(мой акцент)

Другими словами, для редакторов уже доказанным научным фактом является то, что «проверка значимости нулевой гипотезы» недопустима, и редакционная статья 2014 года только подчеркивает это, в то время как текущая редакционная статья 2015 года просто реализует этот факт.

Неправильное (даже злонамеренное) использование NHSTP действительно хорошо обсуждено и задокументировано. И не случайно в истории человечества «вещи запрещены», потому что было обнаружено, что после всего сказанного и сделанного они были использованы не по назначению, а более эффективно (но разве мы не должны это статистически проверить?). Это может быть «вторым лучшим» решением - сократить то, что в среднем (логическая статистика) привело к потерям, а не к прибыли, и поэтому мы прогнозируем (логическая статистика), что это будет иметь пагубные последствия и в будущем.

Но рвение показали за формулировкой выше первого предложение, делает этот взгляд -exactly, как ревнителя подход , а не хладнокровное решение сократить руку , которая стремится украсть , а не предложение. Если кто-то прочтет редакционную статью на год старше, упомянутую в приведенной выше цитате (DOI: 10.1080 / 01973533.2014.865505), он увидит, что это только часть перенастройки политик Журнала новым редактором.

Прокручивая редакционную статью, они пишут

... Наоборот, мы считаем, что планка p <.05 слишком проста для прохождения и иногда служит оправданием для исследований более низкого качества.

Таким образом, представляется, что их вывод, связанный с их дисциплиной, состоит в том, что нулевые гипотезы отвергаются «слишком часто», и поэтому предполагаемые результаты могут приобретать ложную статистическую значимость. Это не тот же аргумент, что и в "неверном" изречении в первом предложении.

Таким образом, чтобы ответить на вопрос, очевидно, что для редакторов журнала их решение не только разумно, но уже слишком поздно для реализации: они, кажется, думают, что они вырезали, какая часть статистики стала вредной, сохраняя полезные части - они, кажется, не верят, что здесь есть что-то, что нуждается в замене чем-то «эквивалентным».

Эпистемологически, это тот случай, когда ученые-социологи частично отказываются от попытки сделать свою дисциплину более объективной в своих методах и результатах, используя количественные методы, потому что они пришли к выводу (как?), Что, в конце концов, Попытка создала «больше плохого, чем хорошего». Я бы сказал, что это очень важный вопрос, который в принципе возможен, и для его демонстрации «вне всякого разумного сомнения» и реальной помощи вашей дисциплине потребуются годы. Но только одна или две опубликованные передовые статьи и статьи, скорее всего, (логическая статистика) разожгут гражданскую войну.

Последнее предложение редакции 2015 года гласит:

Мы надеемся и ожидаем, что запрет NHSTP приведет к повышению качества представленных рукописей, освободив авторов от утонченной структуры мышления NHSTP, тем самым устраняя важное препятствие для творческого мышления. NHSTP доминирует в психологии на протяжении десятилетий; мы надеемся, что, введя первый запрет NHSTP, мы продемонстрируем, что психологии не нужен костыль NHSTP, и что другие журналы следуют его примеру.

— Алекос Пападопулос
источник

5

Да ... мы должны быть осторожны при написании насмешливых или сардонических ответов на этом сайте: они могут быть (полностью) неправильно поняты!

— whuber

4

@ naught101 ... это было бы не очень дипломатично. Обратите внимание, что то, как NHSTP осуждается, избавляет самих психологов от того, что они использовали его все эти десятилетия. Если бы это было написано так, как вы предлагаете, это было бы гораздо больше похоже на прямое нападение на их коллег как ученых. По сути, текст в настоящее время подразумевает, что полные благими намерениями психологи, к сожалению, были введены в заблуждение при использовании этого подхода «кем-то», который неправильно использовал свою «силу научного авторитета» в этом вопросе ... Возможно, злыми статистиками, движимыми научными империализм?

— Алекос Пападопулос

4

Плохой рабочий обвиняет свои инструменты.

— naught101

3

@BrianDHall Я хотел бы предложить поискать более авторитетные ресурсы по вопросам, касающимся ННСТП (включая этот сайт), а не работы конкретного автора по этому вопросу. Вопрос сложный и тонкий - уже из вашего комментария нужно сначала обсудить семантику вокруг «принять» и «утверждать» ...

— Алекос Пападопулос

6

@ naught101: Если вы заметили, что рабочий не может правильно обращаться с бензопилой, вы можете не винить инструмент. Но вы все равно отнимаете его у рабочего, чтобы предотвратить дальнейший вред ;-)

— nikie

19

Я чувствую, что запрещение тестов гипотез - отличная идея, за исключением нескольких избранных гипотез «существования», например, проверка нулевой гипотезы о том, что не существует экстрасенсорного восприятия, когда все, что нужно продемонстрировать, чтобы иметь доказательства того, что ESP существует, - это не случайность. , Но я думаю, что журнал упустил момент, что основной движущей силой плохого исследования в психологии является использование порога для значений . В психологии и большинстве других областей было продемонстрировано, что большое количество игр продолжается до . Это включает в себя подстановку гипотез, удаление наблюдений и поднабор данных. Это пороги, которые должны быть запрещены в первую очередь. $P$ $P < 0.05$

Запрет доверительных интервалов также за бортом, но не по причинам, указанным другими. Доверительные интервалы полезны, только если их неправильно интерпретируют как байесовские достоверные интервалы (для подходящих неинформационных априорных значений). Но они все еще полезны. Тот факт, что их точная интерпретация часто приводит только к путанице, означает, что нам нужно «выбраться из Доджа» и пойти в школу Байеса или вероятностного анализа. Но полезные результаты можно получить, неправильно истолковав старые добрые пределы доверия.

Обидно, что редакторы журнала неправильно поняли байесовскую статистику и не знают о существовании чисто вероятностного вывода. То, что они ищут, может быть легко обеспечено байесовскими апостериорными распределениями с использованием слегка скептических априоров.

— Фрэнк Харрелл
источник

+1, спасибо. Позвольте мне уточнить относительно доверительных интервалов. Доверительные интервалы связаны со стандартными ошибками, поэтому, вероятно, следует прекратить их использовать. Давайте рассмотрим самый простой случай: некоторое значение измеряется по группе из предметов / объектов; допустим, среднее значение равно 3. Насколько я понимаю, этот журнал предлагает сообщать о нем просто как 3. Но разве вы не хотите видеть стандартную ошибку, например, ? Это, конечно, означает, что 95% доверительный интервал равен , что также означает, что , так что все это связано. Я не уверен, как вы предлагаете сообщить об этом.

n

$n$

3 \pm 0.5

$3 \pm 0.5$

3 \pm 1

$3 \pm 1$

p < 0.05

$p<0.05$

— говорит амеба: восстанови монику

4

Я думаю, что стандартные ошибки слишком упрощены (потому что они предполагают симметричное распределение), но полезные показатели точности, такие как среднеквадратическая ошибка. Вы можете думать о точном интервале, основанном на среднеквадратичной ошибке, не представляя вероятностный охват. Поэтому я не вижу, где какое-либо из этих обсуждений подразумевает ослабление стандартных ошибок. И я не предлагал, чтобы мы прекратили использовать CL. Но трудности с CL происходят главным образом из попыток интерпретации вероятностей.

— Фрэнк Харрелл

Хммм. Интересно. Мне кажется, что от стандартной ошибки до КИ (постоянного фактора!) Такой маленький шаг, что рассматривать их по-другому было бы странно. Но, возможно, это смысловой момент; Я предполагаю, что вы имеете в виду, что люди думают о стандартных ошибках и CI по-разному и склонны запутываться в CI. Интересно, что говорится в этой конкретной политике журнала о стандартных ошибках (редакция не упоминает их явно).

— говорит амеба: восстанови Монику

2

В симметричных ситуациях стандартная ошибка является строительным блоком для доверительного интервала. Но во многих случаях правильный доверительный интервал является асимметричным, поэтому он вообще не может основываться на стандартной ошибке. Некоторые разновидности начальной загрузки и обратного преобразования являются двумя подходами этого типа. Профили вероятностных доверительных интервалов особенно приходят сюда на ум.

— Фрэнк Харрелл

@Frank Harrell - Что касается «чисто правдоподобного вывода», я согласен с тем, что акцент на обобщении вероятности данных, не приукрашивая их пороговыми значениями, кажется, является ответом, за который редакторы цеплялись. В книге А. Ф. Эдвардса «Вероятность» (1972 г.) прямо говорится о проблеме редактора: «Мы можем отложить рассмотрение этих аргументов (например, проверка значимости) до более поздних глав и сразу перейти к описанию процедуры, основанной на концепции вероятности Фишера. , который не открыт ни одному из этих объектов, которые могут быть выровнены при проверке значимости ".

— Джон Марк

13

Я рассматриваю этот подход как попытку решить проблему неспособности социальной психологии воспроизвести многие ранее опубликованные «важные выводы».

Его недостатками являются:

что это не касается многих факторов, приводящих к побочным эффектам. Например,
- А) Люди все еще могут посмотреть на свои данные и прекратить проводить свои исследования, когда величина эффекта кажется им достаточно большой, чтобы представлять интерес.
- Б) Большие размеры эффектов все равно будут иметь большую силу при ретроспективных оценках силы.
- C) Люди все еще будут ловить рыбу для получения интересных и значительных эффектов (проверяя несколько гипотез в эксперименте, а затем сообщая о появившейся гипотезе), или
- D) притворяться, что неожиданный странный эффект ожидался все время.
Не следует ли прилагать усилия для решения этих проблем в первую очередь?
По мере продвижения вперед, обзор прошлых результатов будет довольно ужасным. Невозможно количественно оценить достоверность различных исследований. Если в каждом журнале реализован такой подход, у вас будет множество социологов, которые говорят, что есть доказательства для X, когда совершенно неясно, насколько правдоподобен X, и ученые спорят о том, как интерпретировать опубликованный эффект, или спорят о его важности или ценности. говоря о. Разве это не смысл иметь статистику? Чтобы обеспечить последовательный способ оценки чисел. На мой взгляд, этот новый подход вызвал бы беспорядок, если бы он был широко реализован.
Это изменение не побуждает исследователей представлять результаты исследований с небольшими размерами эффекта, поэтому оно не учитывает эффект «папки с файлами» (или они собираются публиковать результаты с большими n независимо от размера эффекта?). Если бы мы опубликовали все результаты тщательно разработанных исследований, то, хотя правдоподобие результатов отдельных исследований может быть неопределенным, метаанализ и обзоры исследований, которые предоставили статистический анализ, сделали бы намного лучшую работу по выявлению истины.

— captain_ahab
источник

2

@captain_ahab Что касается пункта 3, мы должны упомянуть, что предыдущая редакция (2014) редактора явно поощряла представление исследований с «нулевым эффектом».

— Алекос Пападопулос

1

Кажется, я не могу найти комментарий в редакции, где обсуждаются какие-либо критерии для публикации, за исключением необходимости иметь большие размеры выборки, чем обычно (как они планируют идентифицировать приемлемые числа без статистических выводов, мне неясно). Для меня нет никакого акцента в этой редакционной статье, что им все равно, каков размер эффекта. Мне кажется, что они все еще будут искать интересные эффекты и интересные истории, которые, как мне кажется, являются самой большой проблемой в работе по общественным наукам (то есть, поиск специальных эффектов и историй).

— captain_ahab

2

Что кажется лучшим решением, так это то, что все ученые должны регистрировать гипотезу, базовый рациональный, мощный и аналитический подход исследования в ОБЩЕСТВЕННОМ месте, прежде чем проводить исследование. А затем ограничиваясь публикацией этого исследования в порядке назначения. Если обнаружен неожиданный интересный эффект, они должны публично войти в систему, а затем запустить новое исследование, которое исследует этот эффект. Этот подход, учитывающий ложные срабатывания, также позволит ученым продемонстрировать свою продуктивность без публикации новых эффектов.

— captain_ahab

7

Я натолкнулся на замечательную цитату, которая почти доказывает одну и ту же мысль, но не совсем - поскольку это вступительный абзац в учебнике, который в основном посвящен статистике частых случаев и проверке гипотез.

Нестатики, такие как автор, широко считают, что если вы проводите хорошие эксперименты, статистика не нужна. Они совершенно правы. [...] Проблема, конечно, в том, что делать хорошие эксперименты сложно. Большинству людей нужна вся помощь, которую они могут получить, чтобы не дать им себя одурачить, утверждая, что их любимая теория подтверждается наблюдениями, которые ничего подобного не делают. И главная функция этого раздела статистики, который имеет дело с тестами значимости, состоит в том, чтобы не допустить, чтобы люди делали себя дураками. С этой точки зрения функция значимых тестов состоит в том, чтобы не допустить публикацию экспериментов людьми, а не поощрять их. В идеале, действительно, тесты значимости никогда не должны появляться в печати, поскольку они использовались, если вообще использовались, на предварительных этапах для выявления неадекватных экспериментов,

- Дэвид Колкхоун, лекции по биостатистике , 1971

— амеба говорит восстановить монику
источник

1

Ваш пост на самом деле является комментарием, а не ответом, поэтому я воздерживаюсь от его голосования, но хочу поблагодарить вас за то, что вы поделились цитатой. В этом отрывке так много недопонимания, что потребуется много усилий (не говоря уже о пробелах), чтобы указать на них и разоблачить их все. Одним словом, противодействие этим утверждениям - «эффективность». Если бы у каждого было неограниченное время и бюджет, мы бы хотя бы стремились проводить «хорошие эксперименты». Но когда ресурсы ограничены, было бы безрассудным (а также дорогостоящим) проводить только «окончательные, ... чистые» эксперименты.

— whuber

2

Спасибо за ваш комментарий, @whuber; Я согласен с тем, что вы говорите. Тем не менее, я должен добавить, что мне нравится говорить, что в идеале экспериментальные данные должны быть настолько убедительными, чтобы сделать формальные проверки гипотез избыточными. Это не недостижимый идеал! В моей области (где р-значения используются много), я считаю , что лучшие доклады будут убедительны без них: например , потому , что они представляют собой последовательность из нескольких экспериментов , поддерживая друг друга, которые вместе взятые, очевидно , не может быть статистической случайностью. Комментарий: это было слишком долго для комментария, и я подумал, что все в порядке как ответ CW.

— говорит амеба: восстанови Монику

Да, я понимаю, почему он должен был быть опубликован в качестве ответа, и поэтому не голосовал, чтобы переместить его в комментарий (который обрезал бы последнюю часть цитаты). Я согласен, что идеал не является недостижимым в конкретных случаях . Я также согласен, что это хороший идеал, чтобы иметь в виду. Но как руководство к тому, как планировать эксперименты (что в целом является дисциплиной распределения ресурсов), это может быть ужасной ошибкой. (Это, конечно , спорно.) Предположение о том , что «хороший» эксперимент никогда не требует статистических методов, однако, один , который не выдерживает даже беглый осмотр.

— whuber

1

Возможно, один из способов чтения - сказать, что первоначальный критерий значимости, который предполагал, что вещество стимулирует определенный физиологический ответ, к тому времени, когда вы публикуете свои исследования о влиянии различных видов ингибиторов на кривую доза-ответ, уже не актуален.

— Scortchi - Восстановить Монику