Является ли p-значение бесполезным и опасным для использования?


36

Эта статья « Шансы, постоянно обновляемая» из NY Times привлекла мое внимание. Короче говоря, говорится, что

[Байесовская статистика] оказывается особенно полезной при решении сложных проблем, в том числе поисков, подобных той, которую береговая охрана использовала в 2013 году, чтобы найти пропавшего рыбака Джона Олдриджа (хотя пока не до сих пор в поиске рейса 370 Malaysia Airlines) ...... Байесовская статистика пронизывает все: от физики до исследований рака, от экологии до психологии ...

В этой статье также есть некоторые критические замечания о p-значении часто встречающегося, например:

Результаты обычно считаются «статистически значимыми», если значение р составляет менее 5 процентов. Но в этой традиции есть опасность, сказал Эндрю Гельман, профессор статистики в Колумбии. Даже если ученые всегда делали вычисления правильно - и они этого не делают, утверждает он, - принятие всего с p-значением 5 процентов означает, что один из 20 «статистически значимых» результатов - не что иное, как случайный шум.

Помимо вышесказанного, пожалуй, самая известная статья, критикующая p-значение, - «Научный метод: статистические ошибки» Реджины Нуццо из Nature , в котором обсуждалось множество научных вопросов, возникающих в связи с p-значением, таких как проблемы воспроизводимости, взлом p-значения и т. д.

Значения P, «золотой стандарт» статистической достоверности, не так надежны, как полагают многие ученые. ...... Возможно, худшей ошибкой является вид самообмана, для которого психолог Ури Симонсон из Университета Пенсильвании и его коллеги популяризировали термин P-хакерство; это также известно как выемка данных, слежка, лов рыбы, преследование значимости и двойное погружение. «P-хакерство», - говорит Симонсон, - «пробует несколько вещей, пока не получит желаемый результат» - даже неосознанно. ...... «Похоже, что это заключение было получено с помощью p-хакерства, авторы отказались от одного из условий, чтобы общее значение p было меньше 0,05», и «Она p-хакер, она всегда отслеживает данные во время их сбора ».

Другое дело, интересный сюжет, как следует отсюда , с комментарием о сюжете:

Независимо от того, насколько малым может быть ваш эффект, вы всегда можете выполнить тяжелую работу по сбору данных, чтобы преодолеть порог p <0,05. Пока исследуемый эффект не существует, p-значения просто измеряют, сколько усилий вы потратили на сбор данных.

введите описание изображения здесь

Со всем выше, мои вопросы:

  1. Что именно означает аргумент Эндрю Гельмана во второй цитате блока? Почему он интерпретировал 5-процентное значение p как «один из 20 статистически значимых результатов - это случайный шум»? Я не убежден, так как для меня p-значение используется для определения одного исследования. Его точка зрения связана с множественным тестированием.

    Обновление: проверьте блог Эндрю Гельмана об этом: Нет, я этого не говорил! (Авторы @ Scortchi, @whuber).

  2. Учитывая критику в отношении p-значения, а также учитывая, что существует множество информационных критериев, таких как AIC, BIC, Мэллоу для оценки значимости модели (следовательно, переменных), если мы не будем использовать p-значение для выбора переменных в все, но использовать эти критерии выбора модели?Cp

  3. Есть ли хорошие практические рекомендации по использованию p-значения для статистического анализа, которые могут привести к более надежным результатам исследований?
  4. Будет ли байесовская модель моделирования более эффективным способом, как утверждают некоторые статистики? В частности, будет ли байесовский подход с большей вероятностью разрешать ложные поиски или манипулировать проблемами с данными? Я также не убежден здесь, так как предварительный подход очень субъективен в байесовском подходе. Существуют ли какие-либо практические и общеизвестные исследования, которые показывают, что байесовский подход лучше, чем частичное р-значение, или, по крайней мере, в некоторых конкретных случаях?

    Обновление: я был бы особенно заинтересован в том, есть ли случаи, когда байесовский подход более надежен, чем подход частого p-значения. Под «надежным» я подразумеваю байесовский подход с меньшей вероятностью манипулировать данными для получения желаемых результатов. Какие-либо предложения?


Обновление 9/9/2015

Просто заметил новости и подумал, что было бы хорошо выложить их сюда для обсуждения.

Психология журнала запрещает значения P

Спорный статистический тест наконец-то завершился, по крайней мере, в одном журнале. Ранее в этом месяце редакторы «Базовой и прикладной социальной психологии» (BASP) объявили, что журнал больше не будет публиковать статьи, содержащие значения P, поскольку статистика слишком часто использовалась для поддержки исследований более низкого качества.

Наряду с недавней статьей «Непостоянное значение P генерирует невоспроизводимые результаты» от Nature , о значении P.

Обновление 08.05.2016

Еще в марте Американская статистическая ассоциация (ASA) опубликовала заявления о статистической значимости и значениях p: «.... Заявление ASA предназначено для того, чтобы направить исследования в« эпоху после p <0,05 ».»

Это утверждение содержит 6 принципов, которые касаются неправильного использования значения p:

  1. P-значения могут указывать, насколько несовместимы данные с указанной статистической моделью.
  2. Значения P не измеряют вероятность того, что изученная гипотеза верна, или вероятность того, что данные были получены только по случайной случайности.
  3. Научные выводы и деловые или политические решения не должны основываться только на том, превышает ли значение p определенный порог.
  4. Правильный вывод требует полной отчетности и прозрачности.
  5. Значение р, или статистическая значимость, не измеряет размер эффекта или важность результата.
  6. Само по себе значение p не дает достаточных доказательств в отношении модели или гипотезы.

Подробности: «Заявление ASA о p-значениях: контекст, процесс и цель» .


11
0.050.05


4
Хорошая находка, @ Scortchi! Для справки - в случае, если связь когда-либо испортится - Гельман категорически отвергает характеристику NY Times (хотя и очень тактично) и пишет: «Принятие всего с p-значением 5 процентов может привести к ложным результатам - случаи, когда наблюдаемое» статистически значимая «картина в данных не отражает соответствующую картину в популяции - гораздо чаще, чем в 5 процентах случаев».
whuber

3
Ссылаясь на ваш комментарий «Пока эффект, который вы изучаете, не существует», в этом и заключается смысл исследований, включающих значения p - чтобы определить, действительно ли эффект, который вы изучаете, присутствует или есть особенности в данные, которые вы собрали, просто случайно. Понижение значения p при увеличении размера выборки является абсолютно математически обоснованным и, по сути, единственным вариантом. Вы никоим образом не «взламываете» значение p. С интуитивной точки зрения, имеет смысл, что прилагая больше усилий для сбора данных, вы получите большую уверенность в выводах, которые вы из этого сделаете.
Дэвид Уэбб

1
@DavidWebb Согласовано. Если размер эффекта невелик, это нормально, и будет легче сказать, насколько велик или мал эффект с большим количеством данных. Если вы можете получить больше данных, вы должны.
Дести

Ответы:


25

Вот несколько мыслей:

  1. 80%100/118.7584%
  2. p
  3. p
  4. Я не против того, чтобы использовать методы Байеса, но я не верю, что они решат эту проблему. Например, вы можете просто продолжать собирать данные до тех пор, пока достоверный интервал не перестанет включать значение, которое вы хотите отклонить. Таким образом, у вас есть «надежный интервал-взлом». На мой взгляд, проблема в том, что многие практики не заинтересованы в статистическом анализе, который они используют, поэтому они будут использовать любой метод, который требуется от них бездумным и механическим способом. Более подробно с моей точки зрения здесь может быть полезно прочитать мой ответ на: Размер эффекта как гипотеза для проверки значимости .

10
(+1) Самый простой способ взломать достоверный интервал - это принять правильное предварительное условие :-). Конечно, ни один компетентный практик не сделал бы этого, - подчеркивает Гельман, используя оценки чувствительности, неинформативные гиперприоры и т. Д. - но опять же, ни один компетентный пользователь тестов гипотез не будет заниматься взломом p-значений, не так ли? С другой стороны, в байесовском анализе может быть сложнее скрыть то, что вы делаете - при условии, что предыдущий отчет четко раскрыт - по сравнению со всеми недокументированными анализами, которые могут быть связаны со взломом p-значения.
whuber

1
@whuber, это правда, но я думаю, что мы можем отложить в сторону любые проблемы с неуместностью или субъективностью предыдущего. Если истинный эффект не равен точно 0, то при достаточном количестве данных вероятный интервал в конечном итоге не будет включать 0, так же как р будет <.05 (ср. Последняя цитата), так что вы можете просто продолжать собирать данные, пока не получите результат, который вы хотите, независимо от предыдущего.
gung - Восстановить Монику

4
Хорошие моменты. Мне напомнили о недавнем вопросе о прогнозировании сбоев в 10 000 продуктов после того, как не было замечено сбоев в 100 000 из них. Ответ довольно чувствителен к предыдущему, потому что неудачи случаются очень редко. Это может быть исключительная ситуация, которая «подтверждает правило»; это показывает, что в действительности может быть практически невозможно собрать достаточно данных для получения желаемого результата. Именно тогда некоторые клиенты начинают умолять статистику «творить чудеса» для достижения желаемого результата! Вероятно, многие читатели чувствовали это давление раньше ...
whuber

1
@gung, в практических клинических испытаниях всегда есть критерии остановки на разных этапах для привлечения большего количества субъектов для экспериментов. В этом смысле, будет ли байесовский подход менее вероятным манипулировать вероятным интервалом, таким образом, выводами исследования?
Аарон Зенг

2
@AaronZeng, мне кажется, что явные критерии остановки в равной степени применимы к частым и байесовским взглядам. Я не вижу здесь никаких преимуществ / недостатков.
gung - Восстановить Монику

8

Для меня одна из самых интересных вещей в споре о p-хакерстве заключается в том, что вся история p <= 0,05 как стандарта "один раз в голубой луне" для статистической значимости, как отметил Джозеф Калдейн в статье JASA по криминалистической статистике Еще в 90-х годах она не опиралась ни на какую статистическую теорию. Это соглашение, простая эвристика и эмпирическое правило, которое началось с Р.А. Фишера и с тех пор было преобразовано или освящено в его нынешний «несомненный» статус. Байесовский или нет, давно пора бросить вызов этому метрическому стандарту или хотя бы придать ему скептицизм, которого он заслуживает.

Тем не менее, моя интерпретация точки зрения Гельмана заключается в том, что, как хорошо известно, процесс рецензирования поощряет положительную статистическую значимость и наказывает незначительные результаты, не публикуя эти статьи. Это не зависит от того, окажет ли публикация незначительного открытия потенциально большое влияние на мышление и теоретизирование для данной области. Гельман, Симоншон и другие неоднократно указывали на злоупотребление уровнем значимости 0,05 в рецензируемых и опубликованных исследованиях, приводя примеры нелепых, но статистически значимых результатов в паранормальных, социальных и психологических исследованиях. Одним из самых вопиющих было статистически значимое открытие, что беременные женщины чаще носили красные платья. Гельман утверждает, что при отсутствии логических проблем со статистическими результатами,потенциально бессмысленное объяснение. Здесь он ссылается на профессиональную опасность в отрасли с чрезмерно техническими и заумными аргументами, которые мало или ничего не делают для продвижения дебатов среди светской аудитории.

Это точка зрения, которую Гэри Кинг решительно высказывает, когда он фактически просит количественных политологов (и, соответственно, всех квантов) прекратить механистический, технический репортаж, такой как «этот результат был значительным на уровне ap <= 0,05» и переход к более предметным интерпретациям. , Вот цитата из его бумаги,

(1) передать численно точные оценки величин, представляющих наибольший существенный интерес, (2) включить разумные меры неопределенности в отношении этих оценок, и (3) требуется мало специальных знаний для понимания. Следующее простое утверждение удовлетворяет нашим критериям: «При прочих равных условиях дополнительный год обучения увеличит ваш годовой доход в среднем на 1500 долларов, плюс-минус около 500 долларов». Любой умный ученик старшей школы поймет это предложение, независимо от того, насколько сложна статистическая модель и насколько мощны компьютеры для ее создания.

Идея Кинга очень хорошо принята и наметила направление, в котором должны идти дебаты.

Максимальное использование статистического анализа: улучшение интерпретации и представления , Кинг, Томз и Виттенберг, 2002, Am Jour of Poli Sci .


2
+1 Спасибо за этот читаемый, информативный и вдумчивый вклад в ветку.
whuber

@whuber Спасибо за добрые слова. Время покажет, согласны ли другие участники с этим или нет.
Майк Хантер

2
Я могу быть введен в заблуждение, но мне нравится думать, что некоторые (если не большинство) наших активных избирателей голосуют не на основе согласия или разногласия, а на том, отвечает ли сообщение на исходный вопрос ясным и авторитетным способом , В конце концов, текст над значком upvote гласит: «Этот ответ полезен», а не «Я согласен с этим парнем». (Это не следует путать с голосования на нашем сайте мета, который делает означающие степень согласия.) Некоторые доказательства этого впечатления позволян многих спортивного мастерства значки награжденных.
whuber

@ Whuber Нюанс, который вы указываете, должным образом отмечен.
Майк Хантер

@whuber эта тема была источником моего использования слова, введенного в заблуждение в нашем чате на днях.
Майк Хантер

5

Вот некоторые из моих мыслей относительно Вопроса 3 после прочтения всех проницательных комментариев и ответов.

Возможно, одно практическое руководство в статистическом анализе, чтобы избежать взлома p-значения, состоит в том, чтобы вместо этого взглянуть на научно (или, биологически, клинически и т. Д.) Значительный / значимый размер эффекта.

θ обозначить лекарственный эффект, вместо проверки следующей гипотезы,

ЧАС0:θзнак равно0vs,ЧАСa:θ0,
надо всегда проверять
ЧАС0:θ<δvs,ЧАСa:θδ,
с δ являясь предопределенным размером эффекта, чтобы претендовать на значимое значение.

Кроме того, во избежание использования слишком большого размера выборки для определения эффекта необходимо также учитывать требуемый размер выборки. То есть мы должны ограничить максимальный размер выборки, используемый для эксперимента.

Подводить итоги,

  1. Нам нужно заранее определить порог для значимого эффекта, чтобы объявить о значении;
  2. Нам необходимо заранее определить порог для размера выборки, который используется в эксперименте, чтобы определить, насколько детектируемым является значимый размер эффекта;

С учетом вышесказанного, возможно, мы можем избежать незначительного «значительного» эффекта, о котором говорит огромный размер выборки.


[Обновление 9/9/2015]

Что касается Вопроса 3, вот несколько предложений, основанных на недавней статье, написанной самой природой: «Непостоянное значение P дает невоспроизводимые результаты», как я уже упоминал в части «Вопрос».

  1. Сообщите оценки размера эффекта и их точность, то есть 95% доверительный интервал, поскольку эта более информативная информация точно отвечает на вопросы, например, насколько велика разница или насколько сильны отношения или связь;
  2. Поместите оценки величины эффекта и 95% ДИ в контекст конкретных научных исследований / вопросов и сфокусируйтесь на их актуальности, отвечая на эти вопросы, и обесцените непостоянное значение P;
  3. Замените анализ мощности на « планирование точности », чтобы определить размер выборки, необходимый для оценки размера эффекта для достижения определенной степени точности.

[Конец обновления 6/9/2015]


4
Если переписать ЧАС0:θзнак равноδтогда вы спорите о проверке эквивалентности , что, на мой взгляд, хорошо во многих ситуациях. (Как правило, тесты гипотез не представлены, как вторая ситуация, потому что есть потенциальные результаты не в нулевой или альтернативной.)
Энди W

@AndyW, спасибо за комментарии. Я изменил свой ответ соответственно. Это звучит лучше?
Аарон Зенг

2
+1 за ссылку на эту статью о природе. Тем не менее, он содержит некоторую удивительную дезинформацию, такую ​​как (необъявленная) байесовская интерпретация p-значений: «Например, если исследование получает P = 0,03, есть 90% -ная вероятность, что повторное исследование возвратит где-нибудь значение P между широким диапазоном 0–0,6 (90% интервалов прогнозирования), тогда как шансы P <0,05 составляют всего лишь 56% ». Интересно, какой предварительный дистрибутив предполагают авторы - и почему это вообще актуально?
whuber

@AndyW и Aaron Zeng, еще лучше объединить результаты обоих тестов на разность и тестов на эквивалентность. Таким образом, каждый четко указывает как размер эффекта, так и статистическую мощность в выводы, которые он делает (см. Раздел, посвященный тестам релевантности).
Алексис

3

В современном использовании значение p относится к совокупной вероятности данных, учитывая нулевую гипотезу, равную или превышающую некоторый порог. Т.е.п(D|ЧАС0)α, я думаю чтоЧАС0как правило, является гипотезой «отсутствия эффекта», обычно основанной на сравнении с вероятностью удовлетворительно маловероятного случайного результата в некотором количестве испытаний. В зависимости от поля оно варьируется от 5% до 0,1% или менее. Тем не мение,ЧАС0 не должно быть сравнение со случайным.

  1. Это означает, что 1/20 результатов может отклонить ноль, когда они не должны иметь. Если наука основывает свое заключение на отдельных экспериментах, то это утверждение будет оправданным. В противном случае, если бы эксперименты были повторяемыми, это означало бы, что 19/20 не будет отклонено. Мораль этой истории в том, что эксперименты должны повторяться.

  2. Наука - это традиция, основанная на «объективности», поэтому «объективная вероятность» естественно привлекательна. Напомним, что эксперименты предполагают продемонстрировать высокую степень контроля, часто используя блочную конструкцию и рандомизацию для контроля за факторами вне исследования. Таким образом, сравнение со случайными имеет смысл, поскольку предполагается, что все остальные факторы должны контролироваться, кроме тех, которые изучаются. Эти методы были очень успешными в сельском хозяйстве и промышленности до того, как были перенесены на науку.

  3. Я не уверен, была ли когда-нибудь нехватка информации проблемой. Примечательно, что для многих нематематических наук статистика - это просто поле для галочки.

  4. Я бы предложил общее прочтение о теории принятия решений, которая объединяет две структуры. Это просто сводится к использованию столько информации, сколько у вас есть. Статистика часто предполагает, что параметры в моделях имеют неизвестные значения из фиксированных распределений. Байесовцы предполагают, что параметры в моделях происходят из распределений, обусловленных тем, что мы знаем. Если информации достаточно, чтобы сформировать предварительную информацию, и достаточно информации, чтобы обновить ее до точного апостериорного значения, то это здорово. Если нет, то вы можете получить худшие результаты.


1

Воспроизводимость результатов статистического теста

Это короткое, простое упражнение для оценки воспроизводимости решений, основанных на статистическом тестировании.

Consider a null hypothesis H0 with a set of alternative hypotheses containing H1 and H2. Setup the statistical hypothesis test procedure at a significance level of 0.05 to have a power of 0.8, if H1 is true. Further assume that the power for H2 is 0.5. To assess reproducibility of test result, the experiment is considered of executing the test procedure two times. Starting with the situation, where H0 is true, the probabilities for the outcomes of the joint experiment are displayed in Table 1. The probability of not being able to reproduce decisions is 0.095.

Таблица 1. Частоты, если H0 истинно

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

The frequencies change as the true state of nature changes. Assuming H1 is true, H0 can be rejected as designed with a power of 0.8. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 2. The probability of not being able to reproduce decisions is 0.32.

Table 2. Frequencies, if H1 is true

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

Assuming H2 is true, H0 will be rejected with a probability of 0.5. The resulting frequencies for the different outcomes of the joint experiment are displayed in Table 3. The probability of not being able to reproduce decisions is 0.5.

Table 3. Frequencies, if H2 is true

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

The test procedure was designed to control type I errors (the rejection of the null hypothesis even though it is true) with a probability of 0.05 and limit type II errors (no rejection of the null hypothesis even though it is wrong and H1 is true) to 0.2. For both cases, with either H0 or H1 assumed to be true, this leads to non-negligible frequencies, 0.095 and 0.32, respectively, of "non-reproducible", "contradictory" decisions, if the same experiment is repeated twice. The situation gets worse with a frequency up to 0.5 for "non-reproducible", "contradictory" decisions, if the true state of nature is between the null- and the alternative hypothesis used to design the experiment.

The situation can also get better - if type 1 errors are controlled more strictly, or if the true state of nature is far away from the null, which results in a power to reject the null that is close to 1.

Thus, if you want more reproducible decisions, increase the significance level and the power of your tests. Not very astonishing ...


(+1) But you can't set the p-value to 5% before the experiment - think you mean "significance level".
Scortchi - Reinstate Monica

Thank you. Same thing in the last sentence: "decrease the significance levels and increase the power"
Scortchi - Reinstate Monica

I think the biggest issue with p values is that people confuse them with substantive significance. So if p < .05 it means that the discovered effect size is large enough to matter. I get asked at work to generate [substantively] significant effects by generating p values.
user54285
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.