Последствия текущих дебатов о статистической значимости

10

В последние несколько лет различные ученые поднимали пагубную проблему проверки научной гипотезы, получившую название «степень свободы исследователя», что означает, что ученые имеют множество вариантов выбора в ходе анализа, которые смещаются в сторону обнаружения с p-значением <5%. Эти неоднозначные варианты выбора, например, включают в себя случай, который классифицируется как выброс, выполнение многочисленных спецификаций модели, пока что-то не появится, не публикуйте нулевые результаты и т. Д. (Статья, которая вызвала эту дискуссию в психологии, здесь , посмотрите популярную статью Slate и последующие дебаты Эндрю Гельмана здесь , и журнал Time также затрагивает эту тему здесь .)

Сначала один уточняющий вопрос:

Журнал Time написал:

«Степень 0,8 означает, что из десяти проверенных истинных гипотез исключены будут только две, поскольку их влияние не отражено в данных»;

Я не уверен, как это вписывается в определение степенной функции, которое я нашел в учебнике, - это вероятность отклонения нуля как функции параметра $\theta$ . С разной у нас разная сила, поэтому я не совсем понимаю приведенную выше цитату. $\theta$

Во-вторых , некоторые последствия для исследований:

В моей области политической науки / экономики ученые просто используют все имеющиеся данные по годам в стране. Таким образом, мы не должны быть обеспокоены образцом возиться здесь?
Может ли быть решена проблема запуска нескольких тестов, но сообщая только об одной модели, просто из-за того, что кто-то еще в дисциплине повторно проверит вашу статью и немедленно ударит вас за отсутствие надежных результатов? Предвидя это, ученые в моей области, скорее всего, включат robustness checkраздел, где они показывают, что несколько спецификаций модели не изменяют результат. Достаточно ли этого?
Эндрю Гельман и другие поднимают вопрос о том, что независимо от данных всегда можно найти и опубликовать некий «шаблон», которого на самом деле нет. Но это не должно вызывать беспокойства, учитывая тот факт, что любая эмпирическая «модель» должна поддерживаться теорией, а конкурирующие теории в рамках дисциплины будут просто участвовать в дебатах / гонках, чтобы найти, какой лагерь способен найти больше «моделей» в разных местах. Если паттерн действительно ложный, то теория, лежащая в основе, будет быстро разрушена, если в других сэмплах / настройках нет аналогичного паттерна. Разве так не развивается наука?
Предполагая, что текущая тенденция журналов с нулевым результатом действительно будет процветать, есть ли способ объединить все нулевые и положительные результаты вместе и сделать вывод о теории, которую они все пытаются проверить?

— Гейзенберг
источник

См. Также «Проверка теории в психологии и физике: методологический парадокс» . «Нулевая гипотеза» всегда ложна для вашей области. Даже при надлежащей исследовательской практике тесты на значимость и гипотезы, вероятно, неуместны.

— Настой

Ваш вопрос 1 конфликтует с вопросом 3. В polsci / economics есть другие образцы / настройки или нет?

— Настой

11

Вместо того, чтобы использовать p-значения для оценки претензий, мы должны следовать совету Роберта Абельсона и использовать критерии MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Подробнее об Абельсоне читайте в моем обзоре его книги

И мы должны сосредоточиться на величинах эффекта, а не на значениях p в статистическом выводе (с возможным исключением некоторых видов интеллектуального анализа данных, в которых я вообще не разбираюсь). А размеры эффекта должны оцениваться в контексте:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Статистик / аналитик данных не должен быть каким-то странным человеком, используемым как черный ящик, в который помещаются данные, из которых получаются значения p; он / она должен быть научным сотрудником, призванным дать разумный аргумент о значении некоторого набора данных в контексте некоторой области, учитывая текущие теории (или их отсутствие) и текущие доказательства (или их отсутствие).

К сожалению, этот подход требует обдумывания со стороны предметных исследователей, аналитика данных и тех, кто рассматривает результаты (будь то заостренный руководитель, диссертационный комитет, редактор журнала или кто-либо еще). Как ни странно, даже ученые кажутся не склонными к такого рода мысли.

Более подробно о моих взглядах можно прочитать в статье Science360, которую я написал .

— Питер Флом
источник

4

+1 Хотя я, безусловно, согласен с вами, я могу представить, что высказывание «мои претензии поддерживаются MAGIC» не всегда полезно :-)

— Марк Клазен,

1

Да, вам нужно было бы объяснить это, но, если бы вы это сделали, я думаю, что это может сработать: «Это большие эффекты, которые имеют несколько исключений, затрагивают большое количество людей, интересны, потому что XXXX, и заслуживают доверия, потому что они XXXX» может работать. Я не видел это попробовал. :-)

— Питер Флом

1

Да; утверждение «заслуживает доверия», если существует теория, в которой говорится, как это могло бы произойти; если он реплицируется и так далее. Это менее вероятно, если нет физического или другого теоретического объяснения. Чем менее правдоподобно требование, тем больше доказательств требуется для него.

— Питер Флом

2

@ Ань Достоверность в науке должна измеряться тем, насколько хорошо теории предсказывают явления, не используемые при разработке теории. При оценке того, были ли прогнозы хорошими, достоверность требует тиражирования независимыми исследователями. Существует множество эмпирических доказательств того, что тестирование значимости и тестирование гипотез, по-видимому, фактически препятствуют обоим видам поведения, вместо этого поощряя контрпродуктивную деятельность предвзятости публикаций и «р-хакерства» произвольного отсечения «значимости».

— Настой

1

@Flask - я бы сказал, что p-значения не обязательно являются проблемой, более того, проблема заключается в использовании слабых тестов гипотез. Физика тоже использует p-значения, но с гипотезой, которая приводит к точечным предсказаниям (то есть к действительной нулевой гипотезе). Поиск «положительного эффекта» в принципе бесполезен для построения теории - вам нужно сделать точную оценку, чтобы правильно подтвердить теорию.

— вероятностная

3

Сфера статистической науки решает эти проблемы с самого начала. Я продолжаю говорить, что роль статистика состоит в том, чтобы гарантировать, что частота ошибок типа 1 остается фиксированной. Это подразумевает, что риск сделать ложноположительные выводы не может быть устранен, но может контролироваться. Это должно привлечь наше внимание к чрезвычайно большому объему научных исследований, которые проводятся, а не к философии и этике общей статистической практики. За каждый невероятный (непредсказуемый) результат, который обнаруживается в средствах массовой информации (или в политике правительства), по меньшей мере 19 других невероятных результатов были сбиты за их нулевые результаты.

В самом деле, если вы пойдете, скажем, на Clinicaltrials.gov, вы заметите, что в настоящее время в США (почти по всем признакам заболевания) проводится более 1000 клинических испытаний фармацевтических препаратов. Это означает, что при частоте ложно-положительных ошибок 0,001 в среднем на полки будет поставлено, по меньшей мере, 1 лекарство, которое не имеет никакого эффекта. Достоверность 0,05 в качестве подтвержденного порога статистической значимости ставилась под сомнение снова и снова. По иронии судьбы, только статистики чувствуют себя некомфортно при использовании коэффициента ошибочных ответов 1/20, тогда как финансовые заинтересованные стороны (будь то ИП или Мерк) будут настойчиво следовать убеждениям независимо от результатов in-vitro, теоретических доказательств или силы предыдущих доказательств. Честно, это упорство является успешным и похвальным личным качеством многих людей, которые преуспели в нестатистических ролях. Как правило, они сидят над статистиками в своих соответствующих тотемах, которые склонны использовать это упорство.

Я думаю, что цитата из «Времени», которую вы выдвинули, совершенно неверна. Сила - это вероятность отклонения нулевой гипотезы, если она ложна. Это, что более важно, зависит от того, насколько «ложной» является нулевая гипотеза (которая, в свою очередь, зависит от измеряемой величины эффекта). Я редко говорю о силе вне контекста того эффекта, который мы считаем «интересным» обнаруживать. (например, 4-месячная выживаемость после химиотерапевтического лечения рака поджелудочной железы 4-й стадии не представляет интереса, поэтому нет причин привлекать 5000 человек для исследования 3-й фазы).

Чтобы ответить на вопросы, которые вы задали

???
Множественность сложна, потому что она не приводит к очевидному правилу принятия решения о том, как обрабатывать данные. Например, предположим, что мы заинтересованы в простой проверке среднего значения. Несмотря на бесконечные протесты моих коллег, легко показать, что критерий Стьюдента хорошо откалиброван для выявления различий в среднем независимо от распределения выборки данных. Предположим, мы поочередно преследовали их путь. Они начнут с проверки на нормальность, используя некоторый вариант хорошо известного дистрибутивного теста (скажем, калибровку qqplot). Если данные выглядели достаточно ненормальными, они тогда спрашивали, следуют ли данные какому-либо общеизвестному преобразованию, и затем применяли преобразование Бокса-Кокса для определения степенного преобразования (возможно, логарифмического), которое максимизирует энтропию. Если появляется очевидное числовое значение, они будут использовать это преобразование. Если нет, то они будут использовать «бесплатный дистрибутивный» тест Уилкоксона. Для этой специальной последовательности событий я не могу начать надеяться, как рассчитать калибровку и мощность для простого теста средних разностей, когда простого, глупого t-теста было бы достаточно. Я подозреваю, что глупые поступки, подобные этому, могут быть математически связаны с суперэффективной оценкой Ходжа: оценки, которые являются мощными при определенной гипотезе, мы хотим быть правдой. Тем не менее, этот процесс Сверхэффективная оценка: оценки, которые являются мощными при определенной гипотезе, мы хотим быть правдой. Тем не менее, этот процесс Сверхэффективная оценка: оценки, которые являются мощными при определенной гипотезе, мы хотим быть правдой. Тем не менее, этот процессне статистический, потому что частота ложноположительных ошибок не контролировалась.
Концепция того, что тренды могут быть «обнаружены» ошибочно в любом случайном наборе данных, вероятно, восходит к хорошо написанной статье Мартина под названием «Статистическая сетка Мюнхэзена» . Это очень яркое чтение, которое датируется 1984 годом, до того, как нам родился золотой телец машинного обучения, каким мы его знаем в настоящее время. Действительно, правильно сформулированная гипотеза является фальсифицируемой, но ошибки типа 1 стали намного дороже в нашем обществе, управляемом данными, чем когда-либо прежде. Возьмем, к примеру, фальсифицированные данные исследований по вакцинации, которые привели к массовой последовательности смертей от коклюша. Результаты, которые отвергли общественное обезвреживание вакцин, были связаны единым исследованием(что, хотя и неправильно, не было подтверждено внешними исследованиями). Существует этический стимул для получения результатов и предоставления достоверных доказательств. Насколько сильны доказательства? Это не имеет ничего общего с полученным p-значением, но p-значение, которое вы сказали бы назвать значимым. И помните, что фальсификация ваших данных изменяет значение p, даже когда окончательный подтверждающий тест сообщает о чем-то другом (часто намного меньшем).
ДА! В мета-анализах, опубликованных такими журналами, как Кокрановский отчет, отчетливо видно, что распределение результатов испытаний выглядит более бимодальным, чем норамль, и только положительные и отрицательные результаты попадают в журналы. Это доказательство абсолютно помешает и вводит в заблуждение любого в клинической практике. Если вместо этого мы публикуем нулевые результаты (полученные в результате исследований , результаты которых были бы нам интересны, независимо от того, какими они будут ), мы можем ожидать, что метаанализ действительно представит доказательства, которые являются значимыми и репрезентативными.

— Adamo
источник

1

В « Вероятности как основе действия» Уильям Деминг проводит различие между «перечислительными» и «аналитическими» исследованиями. Он подчеркивает, что результаты каждого эксперимента зависят от конкретной среды эксперимента, поэтому статистики, пытающиеся контролировать «частоту ошибок типа I», всегда будут отклоняться на неизвестную величину, когда лечение применяется в различных условиях. ,

— Настой

@Flask Точно так же ни одна механическая процедура на международной космической станции не была идеально откалибрована, но внимание инженеров к деталям и минимизация ошибок гарантировали, что мы не обнаружили странную странность в наших руках.

— AdamO

Инженеры (надеюсь) тестируют компоненты при всех ожидаемых условиях, а затем добавляют дополнительную погрешность на основе моделей, которые они генерируют. Это тип поведения, отстаиваемый Демингом, и он отличается от попытки сделать выводы о будущей эффективности лечения или взаимосвязи между факторами от оценки ошибки выборки только в одном исследовании. Это очень интересное различие, которое я не видел в других местах.

— Настой

Я не думаю, что вообще оправданно говорить, что «процесс не является статистическим, потому что частота ложноположительных ошибок не контролируется». В статистике гораздо больше, чем в частоте с ее элементами управления частотой ошибок, а нечастые биты - более полезные биты для науки. Возможно, вы захотите прочитать мою недавно опубликованную статью arXived на эту тему: arxiv.org/abs/1311.0081

— Майкл Лью,

1

@ Adamo Отсутствие какой-либо количественной оценки доказательств в выводе по частоте действительно является популярным мнением среди байесов (и вероятников), но оно хорошо подтверждено и было явно выраженным мнением Неймана и Пирсона в первой статье, где они разработали методы для частых рассуждений! Может быть, вы должны читать мою статью с открытым сердцем. Информация все там.

— Майкл Лью

3

Во-первых, я не статистик, а просто исследователь, который много раз изучал его в последние несколько лет, чтобы выяснить, почему методов, которые я наблюдаю, которые используются вокруг меня, так не хватает и почему так много путаницы в базовых понятиях, таких как «что» такое р-значение? Я дам свою точку зрения.

Сначала один уточняющий вопрос:

Журнал Time написал:
"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the
данные;"

Я не уверен, как это вписывается в определение степенной функции, которое я нашел в учебнике, - это вероятность отклонения нуля как функции параметра θ. При разных θ у нас разная сила, поэтому я не совсем понимаю приведенную выше цитату.

Мощность является функцией θ, дисперсии и размера выборки. Я не уверен, в чем путаница. Также во многих случаях, в которых используется тест значимости, нулевая гипотеза среднее значение 1 = среднее значение 2 всегда ложно. В этих случаях значимость зависит только от размера выборки. Пожалуйста, прочитайте «Теорию-тестирование в психологии и физике: методологический парадокс» Пола Мейла, она многое прояснила для меня, и я никогда не видел адекватного ответа. У Пола Мила есть еще несколько статей по этому вопросу, которые вы можете найти, выполнив поиск по его имени.

В моей области политической науки / экономики ученые просто используют все имеющиеся данные по годам в стране. Таким образом, мы не должны быть обеспокоены образцом возиться здесь?

Если вы читаете статью Simmons 2011, это только один из упомянутых методов «p-хакерства». Если это правда, что существует только один набор данных, и никто не выбирает выборочные выборки из него, то я думаю, что нет места для увеличения размера выборки.

Может ли быть решена проблема запуска нескольких тестов, но сообщая только об одной модели, просто из-за того, что кто-то еще в дисциплине повторно проверит вашу статью и немедленно ударит вас за отсутствие надежных результатов? Предвидя это, ученые в моей области, скорее всего, включат раздел проверки надежности, где они показывают, что несколько спецификаций модели не изменяют результат. Достаточно ли этого?

Если бы репликация происходила без смещения публикации, не было бы необходимости в «журналах с нулевым результатом». Я бы сказал, что раздел проверки надежности хорош, но его недостаточно, если исследователи не публикуют то, что они считают нулевыми результатами. Также я бы не стал считать результат надежным только потому, что несколько методов анализа одних и тех же данных приходят к одному и тому же выводу. Надежным результатом является тот, который делает правильный прогноз влияния / корреляции / и т. Д. На новые данные .

Репликация не получает р <0,05 оба раза. Теория должна считаться более надежной, если она предсказывает другой эффект / корреляцию / и т. Д., Чем использовалась в первом исследовании. Я не имею в виду наличие эффекта или корреляции, но точное значение или небольшой диапазон значений по сравнению с возможным диапазоном значений. Наличие увеличенного / уменьшенного эффекта или положительной / отрицательной корреляции на 100% может быть верным в случае, если нулевая гипотеза неверна. Читайте Meehl.

Эндрю Гельман и другие поднимают вопрос о том, что независимо от данных всегда можно найти и опубликовать некий «шаблон», которого на самом деле нет. Но это не должно вызывать беспокойства, учитывая тот факт, что любая эмпирическая «модель» должна поддерживаться теорией, а конкурирующие теории в рамках дисциплины будут просто участвовать в дебатах / гонках, чтобы найти, какой лагерь способен найти больше «моделей» в разных местах. Если паттерн действительно ложный, то теория, лежащая в основе, будет быстро разрушена, если в других сэмплах / настройках нет аналогичного паттерна. Разве так не развивается наука?

Наука не может функционировать должным образом, если исследователи не публикуют нулевые результаты. Кроме того, только то, что образец не был обнаружен во втором образце / настройке, не означает, что он не существует в условиях первоначального исследования.

Предполагая, что текущая тенденция журналов с нулевым результатом действительно будет процветать, есть ли способ объединить все нулевые и положительные результаты вместе и сделать вывод о теории, которую они все пытаются проверить?

Это был бы метаанализ . В этом случае нет ничего особенного в нулевых результатах, кроме того, что исследователи не публикуют их, потому что значения p были выше произвольного порога. При наличии предвзятости публикации метаанализ ненадежен, как и вся литература, страдающая от предвзятости публикации. Хотя это может быть полезно, метаанализ гораздо хуже оценивает теорию, чем когда эта теория делает точный прогноз, который затем проверяется. Предвзятость публикации не так важна, пока новые прогнозы оказываются успешными и воспроизводятся независимыми группами.

— колба
источник

Моя путаница с цитатой времени заключается в том, что функция power не должна ограничиваться тем, когда значение null истинно, как следует из цитаты. Домен степенной функции - это все пространство параметров, если я не ошибаюсь. И, следовательно, нет особой «мощности 0,8», которую можно назначить для теста.

— Гейзенберг

Я полностью согласен с вами в том, что теория должна быть проверена на новых данных. Но в случае с политологией или макроэкономикой, где у нас столько стран и столько лет, обязательно ли тогда эти усилия будут сорваны?

— Гейзенберг

@ Каждую секунду добавляются новые данные. Теория должна предсказывать будущее. Например, в астрономии предсказывалось положение комет. Также вы рассчитываете мощность для ожидаемого значения параметра. Таким образом, в случае цитаты они будут ссылаться на способность проверить теорию, которая предсказывает корреляцию по крайней мере r = .5.

— Настой

Чтобы уточнить r = 0,5, можно привести пример корреляции, предсказанной теорией.

— Настой

2

Я бы сказал, просто, поскольку проверка нулевой гипотезы на самом деле касается только нулевой гипотезы. И вообще, нулевая гипотеза обычно не является тем, что представляет интерес, и может даже не быть «статус-кво» - особенно в регрессионном типе проверки гипотез. Часто в социальных науках отсутствует статус-кво, поэтому нулевая гипотеза может быть совершенно произвольной. Это имеет огромное значение для анализа, поскольку исходная точка не определена, поэтому разные исследования начинаются с разных нулевых гипотез, скорее всего, основанных на имеющихся у них данных. Сравните это с чем-то вроде законов движения Ньютона - имеет смысл принять это как нулевую гипотезу и попытаться найти лучшие теории с этой отправной точки.

Кроме того, p-значения не рассчитывают правильную вероятность - мы не хотим знать о вероятностях хвоста, если только альтернативная гипотеза не является более вероятной, когда вы продвигаетесь дальше в хвосты. Что вы действительно хотите, так это то, насколько хорошо теория предсказывает то, что было на самом деле. Например, предположим, что я предсказываю, что вероятность «легкого дождя» составляет 50%, а мой конкурент предсказывает, что вероятность составляет 75%. Это оказывается правильным, и мы наблюдаем легкий дождь. Теперь, когда вы решаете, какой метеоролог прав, вы не должны давать моему прогнозу дополнительную оценку за то, что он также дает 40% -ную вероятность «грозы», или отнимать кредит у моего конкурента за то, что он дал «грозе» шанс 0%.

$I$ $D$ $H$

В F знак равно \frac{п (D | ЧАС я)}{п (D | \bar{ЧАС} я)}

$BF=\frac{P(D|HI)}{P(D|\overline{H}I)}$

$H$ $BF=\infty$ $H$ $0.001$

Существует хорошо известный и легко неверно истолкованный эмпирический пример этого, когда монета подбрасывается раз, а число головок составляет - немного от половины. Нулевая модель для маргинальной модели $104,490,000$ $52,263,471$ $y\sim Bin(n,0.5)$ $y|\theta\sim Bin(n,\theta)$ $\theta\sim U(0,1)$ $y\sim BetaBin(n,1,1)\sim DU(0,\dots,n)$ $p=0.00015$

В F знак равно \frac{(\binom{N}{Y}) 2^{- N}}{\frac{1}{N + 1}} знак равно \frac{(N + 1)!}{2^{N} Y! (N - Y)!} знак равно 11,90

$BF=\frac{{n\choose y}2^{-n}}{\frac{1}{n+1}}=\frac{(n+1)!}{2^ny!(n-y)!}=11.90$

$\frac{1}{n+1}=0.0000000096$ $0.00000011$

Это особенно верно для примера, который критикует Гельман - действительно когда-либо проверялась только одна гипотеза, и не слишком много думали о том, что а) каковы объяснения альтернатив (особенно в отношении смешения и влияния, которое не контролируется), б) насколько альтернативы, подтвержденные предыдущими исследованиями, и, самое главное, в) какие прогнозы они делают (если таковые имеются), которые существенно отличаются от нуля?

$\overline{H}$ $H_1,\dots,H_K$ $H_k$ $0.01$ $0.1$

Главное подчеркнуть, что гипотеза никогда не может существовать в отрыве от альтернатив. Ведь после указания теорий / моделей вы всегда можете добавить новую гипотезу По сути, этот тип гипотезы - это в основном то, что развивает науку - у кого-то есть новая идея / объяснение для некоторого вида эффект, а затем проверяет эту новую теорию против текущего набора альтернатив . Его $K$

{ЧАС}_{К + 1} знак равно Что-то еще, еще не придуманное

$H_{K+1}=\text{Something else not yet thought of}$

H_{K + 1}

$H_{K+1}$

H_{1}, \dots, H_{K}

$H_1,\dots,H_K$

H_{0}

$H_0$

H_{A}

$H_A$

H_{1}, \dots, H_{K}

$H_1,\dots,H_K$

— probabilityislogic
источник