Почему 0,05 <p <0,95 результатов называют ложноположительными?

Редактировать: основа моего вопроса ошибочна, и мне нужно потратить некоторое время на выяснение того, можно ли вообще сделать это, чтобы иметь смысл.

Редактировать 2: Уточняя, что я признаю, что значение p не является прямой мерой вероятности нулевой гипотезы, но я предполагаю, что чем ближе значение p к 1, тем больше вероятность того, что гипотеза имеет был выбран для экспериментального тестирования, чья соответствующая нулевая гипотеза верна, в то время как чем ближе значение p к 0, тем более вероятно, что для экспериментального тестирования была выбрана гипотеза, соответствующая нулевая гипотеза которой ложна. Я не вижу, как это ложно, если набор всех гипотез (или всех гипотез, выбранных для экспериментов) не является каким-то патологическим.

Редактировать 3: я думаю, что я все еще не использую четкую терминологию, чтобы задать свой вопрос. Когда номера лотереи считываются, и вы сопоставляете их с вашим билетом один за другим, что-то меняется. Вероятность того, что вы выиграли, не меняется, но вероятность того, что вы можете выключить радио, меняется. Аналогичное изменение происходит, когда проводятся эксперименты, но у меня есть ощущение, что используемая мной терминология - «p-значения изменяют вероятность выбора истинной гипотезы» - не является правильной терминологией.

Редактировать 4: я получил два удивительно подробных и информативных ответа, которые содержат огромное количество информации для меня, чтобы проработать. Я сейчас проголосую за них обоих, а затем вернусь, чтобы принять один, когда я достаточно узнал из обоих ответов, чтобы знать, что они либо ответили, либо сделали недействительным мой вопрос. Этот вопрос открыл гораздо большую банку с червями, чем та, которую я ожидал съесть.

В документах, которые я читал, я видел результаты с p> 0,05 после проверки, называемой «ложные срабатывания». Тем не менее, не более ли вероятно, что я выбрал гипотезу для проверки с ложной соответствующей нулевой гипотезой, когда экспериментальные данные имеют ap ~~<0,50,~~ который является низким, но> 0,05, и не являются одновременно нулевой гипотезой и гипотеза исследования статистически неопределенная / незначимая (учитывая обычное ограничение статистической значимости) где-то между 0,05 <p < ~~0,95,~~ независимо от того, что является обратным к p <0,05, учитывая асимметрию, указанную в ссылке @ NickStauner ?

Давайте назовем это число A и определим его как p-значение, которое говорит о том же значении вероятности того, что вы выбрали истинную нулевую гипотезу для своего эксперимента / анализа, а p-значение 0,05 говорит о вероятности того, что вы ' Вы выбрали истинную ненулевую гипотезу для вашего эксперимента / анализа. Разве 0,05 <p <A просто говорит: «Ваш размер выборки не был достаточно большим, чтобы ответить на вопрос, и вы не сможете судить о значимости приложения / реального мира, пока не получите большую выборку и не получите статистические данные». значение разобрано "?

Другими словами, не должно ли быть правильным назвать результат определенно ложным (а не просто не поддерживаемым) тогда и только тогда, когда p> A?

Это кажется простым для меня, но такое широкое использование говорит мне, что я могу ошибаться. Я:

а) неверно истолковать математику,
б) жаловаться на безвредное, если не совсем правильное соглашение,
в) полностью правильное или
г) другое?

Я признаю, что это звучит как призыв к мнению, но это похоже на вопрос с определенным математически правильным ответом (как только будет установлено значение), что я или (почти) все остальные ошибаются.

hypothesis-testing p-value

— Эндрю Клаассен
источник

Привет, Дэвид. Вот бумага, которая заставила меня задуматься об этом: ссылка

— Эндрю Клаассен

В первой строке вы не хотите вместо этого написать «... результаты изначально с но впоследствии с после проверки ...»? Результат с превышающим порог иначе называется отрицательным результатом. Даже после ваших изменений ваша характеристика интерпретации неверна, поэтому я хотел бы предложить вам несколько минут, чтобы просмотреть некоторые из наших постов по интерпретации p-значений и пересмотреть то, что вы хотите спросить.

p < 0.05

$p\lt 0.05$

p \geq 0.05

$p\ge 0.05$

p

$p$

α

$\alpha$

p

$p$

— whuber

Вы можете удалить свой вопрос, если хотите, но так как вы получили два отзыва (о, черт возьми, давайте сделаем это 3), ответ с поправкой и вот-вот получим еще один ответ от «ваш по-настоящему», я прошу вас оставить его Активны и работайте над этим, как считаете нужным, хотя я с уважением отношусь к вашему праву поступать так, как вы хотите. Ура!

— Ник Стаунер

Я согласен с @Nick, Эндрю: у вас есть убедительный и провокационный вопрос, который привлек некоторую мысль и внимание, поэтому мы были бы очень признательны, если бы вы оставили его в курсе и, если можете, немного доработали его, чтобы сосредоточиться на ключевой вопрос, касающийся того, как p-значения интерпретируются. Из того, что я могу сказать, новой частью является предположение, что критерий отклонения должен основываться на большом значении p. Ваш комментарий: ложный положительный результат возникает, когда тест является значимым, но известно, что нулевая гипотеза верна.

— whuber

@whuber: для меня более убедительным фоновым фокусом является то, какой результат предполагает, что последующий эксперимент с большим объемом выборки, вероятно, будет продуктивным. Учитывая ответы до сих пор, мне кажется, мне нужно спросить, могут ли p-значения быть связаны с этим вопросом. Зная, что нулевая гипотеза верна как мера ложноположительного результата: когда можно сказать, что нулевая гипотеза верна вне ситуации p> (1 - α)?

— Эндрю Клаассен

Ответы:

Ваш вопрос основан на ложной предпосылке:

не является ли нулевая гипотеза еще более вероятной, чем неправильной, когда р <0,50

Значение p не является вероятностью того, что нулевая гипотеза верна. Например, если вы взяли тысячу случаев, когда нулевая гипотеза верна, половина из них будет иметь p < .5. Те , половина все будет нулевым.

Действительно, идея, которая p > .95означает, что нулевая гипотеза «вероятно верна», в равной степени вводит в заблуждение. Если нулевая гипотеза верна, вероятность, которая p > .95точно такая же, как вероятность того p < .05.

ETA: Ваше редактирование проясняет, в чем проблема: у вас все еще есть проблема выше (что вы рассматриваете p-значение как апостериорную вероятность, когда это не так). Важно отметить, что это не тонкое философское различие (как я полагаю, вы подразумеваете, что обсуждаете лотерейные билеты): оно имеет огромное практическое значение для любой интерпретации р-значений.

Но это преобразование можно выполнить на р-значения , которые получат Вас к тому , что вы ищете, и это называется локальная скорость ложного открытия. (Как описано в этой хорошей статье , это частый эквивалент «вероятности апостериорной ошибки», поэтому подумайте об этом, если хотите).

Давайте работать с конкретным примером. Допустим, вы выполняете t-тест, чтобы определить, имеет ли выборка из 10 чисел (из нормального распределения) среднее значение 0 (односторонний, двусторонний t-тест). Во-первых, давайте посмотрим, как выглядит распределение p-значения, когда среднее значение фактически равно нулю, с короткой симуляцией R:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

введите описание изображения здесь

Как мы видим, нулевые p-значения имеют равномерное распределение (одинаково вероятно во всех точках между 0 и 1). Это необходимое условие для p-значений: действительно, это именно то, что означают p-значения! (Учитывая, что значение NULL истинно, существует 5% -ная вероятность того, что оно меньше, чем 0,05, 10% -ная вероятность, что оно меньше, чем 0,1 ...)

Теперь давайте рассмотрим альтернативные гипотезы - случаи, когда ноль ложен. Теперь это немного сложнее: когда null равен false, «насколько false»? Среднее значение выборки не равно 0, но равно ли оно? 1? 10? Это случайно меняется, иногда маленький, а иногда большой? Для простоты, допустим, оно всегда равно .5 (но помните, что это усложнение, оно будет важно позже):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

введите описание изображения здесь

Обратите внимание, что распределение теперь не является равномерным: оно смещено в сторону 0! В своем комментарии вы упоминаете «асимметрию», которая дает информацию: это та асимметрия.

Итак, представьте, что вы знали оба этих дистрибутива, но вы работаете с новым экспериментом, и у вас также есть предварительная версия, что есть 50% -ная вероятность, что это ноль, и 50% -ная, что это альтернатива. Вы получаете р-значение 0,7. Как вы можете получить от этого и р-значение для вероятности?

Что вы должны сделать, это сравнить плотности :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

И посмотрите на ваше p-значение:

abline(v=.7, col="red", lty=2)

введите описание изображения здесь

Это соотношение между нулевой плотностью и альтернативной плотностью можно использовать для вычисления локальной частоты ложных открытий : чем выше нулевое значение по отношению к альтернативе, тем выше локальный FDR. Это вероятность того, что гипотеза является нулевой (технически она имеет более строгую частую интерпретацию, но мы оставим ее здесь простой). Если что ценность очень высока, то вы можете сделать интерпретацию «нулевая гипотеза почти наверняка верно.» В самом деле, вы можете установить порог в 0.05 и .95 для локального FDR: это будет иметь свойства, которые вы ищете. (И поскольку локальная FDR монотонно возрастает с увеличением значения p, по крайней мере, если вы все делаете правильно, это приведет к некоторым порогам A и B, где вы можете сказать: «

Теперь я уже слышу, как вы спрашиваете: «Тогда почему бы нам не использовать это вместо p-значений?» Две причины:

Вам необходимо определить предварительную вероятность того, что тест будет нулевым
Вам нужно знать плотность под альтернативой. Об этом очень сложно догадаться, потому что вам нужно определить, насколько велики могут быть ваши размеры и дисперсии эффектов , и как часто они таковы!

Вам не нужен ни один из них для теста p-значения, и тест p-значения все еще позволяет вам избежать ложных срабатываний (что является его главной целью). Теперь, это можно оценить как из этих значений в нескольких тестах гипотезы, когда у вас есть тысячи р-значения (например, один тест для каждого из тысяч генов: см этого документа или этот документ , например), но не тогда , когда ты проводишь один тест.

Наконец, вы можете сказать: «Разве статья не ошибается, говоря, что репликация, приводящая к значению p выше 0,05, обязательно является ложноположительной?» Ну, хотя это правда, что получение одного значения р .04 и другого значения р .06 на самом деле не означает, что исходный результат был неправильным, на практике это разумный показатель. Но в любом случае, вы можете быть рады узнать, что у других есть свои сомнения по этому поводу! В статье вы ссылаетесь несколько спорна в статистике: эта статья использует другой метод и приходит к совершенно иному выводу о р-значениях из медицинских исследований, а затем , что исследование было подвергнуто критикой со стороной некоторых видным Bayesians (и круглым и вокруг него идет ...). Так что, хотя ваш вопрос основан на некоторых ошибочных предположениях о p-значениях, я думаю, что он исследует интересное предположение со стороны цитируемой вами статьи.

— Дэвид Робинсон
источник

Привет, Дэвид. Честная оценка. Я буду перефразировать мой вопрос, чтобы не ошибиться в этой части, и посмотрю, вижу ли я проблему по-прежнему.

— Эндрю Клаассен

@David_Robinson: Правильно ли будет использовать значение p в качестве частоты ложных тревог в байесовском правиле и быть в состоянии сделать из этого выводы о вероятности исследования и / или нулевых гипотез? Установить до 50% и играть быстро и свободно оттуда? :-)

— Эндрю Клаассен

Да, увлекательно! Можете ли вы включить это в свой ответ? Но существует асимметрия между тем, как ведет себя p, когда значение null равно true, и когда оно равно false, что ~ должно ~ дать некоторую информацию о вероятности того, что нулевая гипотеза верна на основе p-значения, извлеченного из данных. Если истинная нулевая гипотеза дает равномерно распределенные p-значения, а истинная ненулевая гипотеза дает p-значения, которые смещены к 0, вытягивание ap = 0,01 мрамора ~ должно ~ предположить, что вы с большей вероятностью выбрали не - пустая банка экспериментов, даже если при проведении эксперимента вероятность не изменилась.

— Эндрю Клаассен

@AndrewKlaassen: Вас может заинтересовать концепция «локального уровня ложных открытий». Это частый эквивалент байесовской апостериорной вероятности того, что ноль истинен. Это требует двух вещей: а) априорной вероятности того, что ноль истинен (иногда ее называют пи0), и б) оценки плотности для альтернативной гипотезы. При тестировании нескольких гипотез (если у вас были тысячи p-значений), можно оценить оба из них, взглянув на плотность. Если у меня будет немного больше времени, я могу встроить более глубокое объяснение в свой ответ.

— Дэвид Робинсон

@AndrewKlaassen: посмотрите мои правки, где я подробно объясняю локальную FDR, почему это способ вычисления вашего значения «A» (хотя вы можете изменить значение .05 при вычислении A), а также почему он используется редко , В любом случае, чтобы прояснить один момент, который на самом деле не вписывается в ответ: ваш пример с лотерейным билетом неправильно понимает то, что я и другие высказывали. Мы не зацикливались на идее «меняются ли вероятности с новой информацией» (это понимают и байесовцы, и частики): дело лишь в том, что вы не изменили их правильно!

— Дэвид Робинсон

^{Наведите указатель мыши на любой тег ( - поддельный тег), показанный ниже, чтобы увидеть краткую выдержку из его вики. Пожалуйста, прости за нарушение межстрочного интервала. Я считаю, что это полезно, потому что отрывки тегов могут помочь читателям проверить понимание жаргона при чтении. Некоторые из этих выдержек могут также заслуживать редактирования, поэтому они также заслуживают публициста, ИМХО. $\leftarrow$}

$p>.05$ обычно подразумевает, что не следует отвергать нулевую гипотезу . И наоборот, ошибки типа i или ложные срабатывания возникают, когда кто-либо отклоняет нулевое значение из-за ошибки выборки или какого-либо другого необычного инцидента, в результате которого получается выборка, которая в противном случае была бы маловероятной (обычно с ), случайным образом выбранной из населения в котором ноль истинно. Результат с который называется ложноположительным, кажется, отражает неправильное понимание критерия значимости нулевой гипотезы. $p<.05$ $p>.05$ ing (NHST). Недопонимание нередко встречается в опубликованной исследовательской литературе, так как NHST общеизвестно нелогичен. Это один из сплоченных воплей байесовского вторжения (который я поддерживаю, но пока не следую ... пока). До недавнего времени я работал с ошибочными впечатлениями, такими как эти, поэтому я от всей души сочувствую.

@DavidRobinson прав в том, что не является вероятностью того, что ноль будет ложным в частом NHST. Это (по крайней мере) одно из ошибочных представлений Гудмана ⁽²⁰⁰⁸⁾ «Грязная дюжина» о значениях^{(см. Также}^{Hurlbert & Lombardi, 2009}⁾ . В NHST, - это вероятность того, что кто-либо из будущих случайных выборок будет взят тем же способом, который продемонстрирует связь или разницу (или любой другой эффект-размер). $p$ $p$ $p$ проверяется на нулевое значение, если существуют другие варианты величины эффекта ...?), по крайней мере, столь же отличающиеся от нулевой гипотезы, что и выборка (и) из той же совокупности (ий), которую тестировали для достижения заданного значения , если ноль истинно. То есть - это вероятность получения образца, подобного вашему, с нулевым значением ; это не отражает вероятность нуля - по крайней мере, не напрямую. И наоборот, байесовские методы гордятся своей формулировкой статистического анализа, поскольку фокусируются на оценке доказательств за или против предыдущей теории эффекта с учетом данных , которые, как они утверждают, являются более интуитивно привлекательным подходом ⁽^{Wagenmakers, 2007).} $p$ $p$ ⁾ , среди других преимуществ, и оставляя в стороне спорные недостатки. (Чтобы быть справедливым, см. « Каковы минусы байесовского анализа? ». Вы также прокомментировали, чтобы цитировать статьи, которые могут предложить некоторые хорошие ответы там: ^{Moyé, 2008; Hurlbert & Lombardi, 2009. )}

Можно утверждать, что нулевая гипотеза в буквальном смысле часто более вероятна, чем неправильная, потому что нулевые гипотезы чаще всего являются буквально гипотезами нулевого эффекта. (Для некоторых удобных контрпримеров см. Ответы на следующие вопросы: « Являются ли большие наборы данных неподходящими для проверки гипотез? ») Философские проблемы, такие как эффект бабочки, угрожают буквальной достоверности любой такой гипотезы; следовательно, нулевое значение наиболее полезно в качестве основы для сравнения альтернативной гипотезы некоторого ненулевого эффекта. Такая альтернативная гипотеза может остаться более правдоподобной, чем нулевая, после сбора данных, что было бы невероятным, если бы нулевое было верно, Следовательно, исследователи, как правило, делают вывод в пользу альтернативной гипотезы из доказательств против нуля, но это не то, что p-значения определяют количественно напрямую ^{( Wagenmakers, 2007 )} .

Как вы подозреваете, статистическая значимость является функцией размера выборки , а также размера эффекта и согласованности. (См @ ответ Гун на недавний вопрос, « Как может т-тест статистически значимыми , если средняя разница почти 0? ») Вопросы , которые мы часто намерены просить наших данных являются: «Что такое эффект xна y? " По разным причинам (в том числе из-за ИМО, неправильных образовательных и других недостатков образовательных программ в области статистики, особенно в том, что преподают не статистики), мы часто задаем себе вместо этого буквально свободный вопрос: «Какова вероятность выборки данных, таких как мои, случайным образом? от населения, в котором xне влияетy«Это существенная разница между оценкой величины эффекта и тестированием значимости, соответственно. Значение отвечает только на последний вопрос напрямую, но несколько специалистов (@rpierce, вероятно, мог бы дать вам лучший список, чем я; простите, что я вас втянул в это»). !) утверждают, что исследователи слишком часто неправильно истолковывают как ответ на прежний вопрос о величине эффекта; боюсь, я должен согласиться. $p$ $p$

Чтобы ответить более прямо относительно значения , это то, что вероятность выборки данных случайным образом из совокупности, в которой значение равно нулю, но которая демонстрирует отношение или различие, отличается от той, которую описывает значение нуля. в буквальном смысле по крайней мере такой же широкий и последовательный запас, как ваши данные ... <вдыхать> ... составляет от 5 до 95%. Можно, конечно, утверждать, что это является следствием размера выборки, потому что увеличение размера выборки улучшает способность обнаруживать небольшие и непоследовательные размеры эффекта и отличать их от нулевого, скажем, нулевого эффекта с достоверностью, превышающей 5%. Тем не менее, небольшие и противоречивые величины эффекта могут быть или не быть значимыми прагматически ( значимы статистически $.05<p<.95$ $\ne$ - еще один из грязной дюжины Goodman's (2008); это зависит в большей степени от значения данных, статистическая значимость которых ограничена. Смотрите мой ответ на выше .

Не должно ли быть правильным назвать результат определенно ложным (а не просто не поддерживаемым), если ... p> 0,95?

Поскольку данные обычно должны представлять эмпирически фактические наблюдения, они не должны быть ложными; В идеале, риску должны подвергаться только выводы о них. (Ошибка измерения, конечно, тоже возникает, но эта проблема несколько выходит за рамки этого ответа, поэтому, помимо упоминания этого здесь, я оставлю это в покое в противном случае.) Всегда существует некоторый риск сделать ложноположительный вывод о том, что ноль менее полезен чем альтернативная гипотеза, по крайней мере, если выводящий не знает, что ноль является истиной. Только в довольно трудных для понимания обстоятельствах знания, что ноль является буквально истинным, будет вывод о том, что предпочтение альтернативной гипотезе будет определенно ложным ... по крайней мере, насколько я могу себе представить в данный момент.

Очевидно, что широко распространенное использование или соглашение не лучший авторитет в отношении эпистемической или логической достоверности. Даже опубликованные ресурсы подвержены ошибкам; см., например, ошибку в определении p-значения . Ваша ссылка ^{( Hurlbert & Lombardi, 2009 ) также} предлагает интересное изложение этого принципа ^{(стр. 322):}

StatSoft (2007) хвастается на своем веб-сайте, что их онлайн-руководство «является единственным интернет-ресурсом по статистике, рекомендованным Encyclopedia Brittanica». Никогда еще не было так важно «не доверять», как гласит наклейка на бампере. [Комично неработающий URL преобразуется в гиперссылку.]

Другой пример: эта фраза в самой недавней статье Nature News ^{( Nuzzo, 2014 )} : «Значение P, общий показатель силы доказательств ...» См. Wagenmakers ' ^{(2007, page 787)} «Проблема 3: Значения не дают количественного подтверждения статистическим доказательствам "... Однако @MichaelLew ⁽^{Lew, 2013}⁾ не согласен с тем способом, который может оказаться полезным: он использует значения для индексации функций правдоподобия. Тем не менее, поскольку эти опубликованные источники противоречат друг другу, по крайней мере, один должен ошибаться! (На некотором уровне, я думаю ...) Конечно, это не так плохо, как "ненадежный" сам по себе. $p$ $p$ _{Я надеюсь, что смогу уговорить Майкла перезвонить здесь, пометив его, как у меня (но я не уверен, что пользовательские теги отправляют уведомления при редактировании - я не думаю, что ваши в OP сделали). Возможно, он единственный, кто может спасти Нуццо - даже сама Природа ! Помогите нам, Оби-Ван! (И извините, если мой ответ здесь демонстрирует, что я все еще не понял значения вашей работы, что, я уверен, у меня есть в любом случае ...)} Кстати, Nuzzo также предлагает некоторую интригующую самооборону и опровержение «Проблема 3» Вагенмейкерса: см. Рисунок «Вероятная причина» ^Нуццо и подтверждающие цитаты ^{( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner & & Greenberg, 2007 )} . Это просто может содержать ответ, который вы

Re: ваш вопрос с множественным выбором, я выбираю d. Возможно, вы неправильно истолковали некоторые концепции здесь, но вы, конечно, не одиноки, если так, и я оставлю вам суждение, поскольку только вы знаете, во что вы действительно верите. Неправильное толкование подразумевает определенную степень уверенности, тогда как постановка вопроса подразумевает обратное, и этот импульс к вопросу, когда неопределенность весьма похвальна и, к сожалению, далеко не повсеместен. Этот вопрос человеческой природы, к сожалению, делает наши соглашения неправильными и безвредными и заслуживает жалоб, подобных тем, на которые здесь ссылаются. (Частично спасибо вам!) Однако ваше предложение также не совсем корректно.

В этом вопросе появляется интересное обсуждение проблем, связанных со значениями в которых я принимал участие: адаптация укоренившихся представлений о значениях p . В моем ответе перечислено несколько ссылок, которые могут оказаться полезными для дальнейшего изучения проблем интерпретации и альтернативы значениям . Будьте предупреждены: я все еще не достиг нижней части этой конкретной кроличьей норы , но я могу, по крайней мере, сказать вам, что она очень глубокая . Я все еще узнаю об этом сам (иначе я подозреваю, что буду писать с более байесовской точки зрения [править]: или, возможно, с точки зрения ^NFSA ! ^{Hurlbert & Lombardi, 2009}⁾ $p$ $p$ Я в лучшем случае слабый авторитет, и я приветствую любые исправления или уточнения, которые другие могут предложить к тому, что я здесь сказал. В заключение я могу лишь предположить, что математически правильный ответ, вероятно, существует, и, возможно, большинство людей ошибаются. Правильный ответ, конечно, не дается легко, как показывают следующие ссылки ...

PS В соответствии с просьбой (вроде ... я признаю, что на самом деле просто вместо этого работаю над этим), этот вопрос является лучшей справкой для иногда равномерного распределения с нулевым значением: " Почему p-значения равномерно распространяется по нулевой гипотезе? »Особый интерес представляют комментарии @ whuber, которые поднимают класс исключений. Как и в случае с обсуждением в целом, я не следую аргументам на 100%, не говоря уже об их последствиях, поэтому я не уверен, что эти проблемы с равномерностью распределения на самом деле являются исключительными. Боюсь, дальнейшая причина глубокой статистической путаницы ... $p$ $p$

Ссылки

_{- Goodman, SN (1992). Комментарий к репликации, P-значения и доказательства. Статистика в медицине, 11 (7), 875–879.

- Goodman, SN (2001). Из P -значения и Байеса: скромное предложение. Эпидемиология, 12 (3), 295–297. Получено с http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman S. (2008). Грязная дюжина: двенадцать неправильных представлений о P- значении. Семинары по гематологии, 45 (3), 135–140. Получено с http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Горроохурн П., Ходж С.Е., Хейман Г.А., Дюрнер М. и Гринберг Д.А. (2007). Отсутствие репликации ассоциативных исследований: «псевдо-неудачи» для репликации? Генетика в медицине, 9 (6), 325–331. Получено с http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH & Lombardi, CM (2009). Окончательный крах теоретической основы решения Неймана – Пирсона и рост неофишерианства. Annales Zoologici Fennici, 46 (5), 311–349. Получено с http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Лью, МДж (2013). К P или нет к P: Об доказательной природе P-значений и их месте в научном заключении. arXiv: 1311.0081 [stat.ME]. Извлекаются изhttp://arxiv.org/abs/1311.0081 .

- Moyé, LA (2008). Байесовцы в клинических испытаниях: спят на рубеже. Статистика в медицине, 27 (4), 469–482.

- Нуццо Р. (2014, 12 февраля). Научный метод: статистические ошибки. Новости природы, 506 (7487). Получено с http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .

- Wagenmakers, EJ (2007). Практическое решение распространенных проблем значений p . Psychonomic Bulletin & Review, 14 (5), 779–804. Получено с http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Ник Стаунер
источник

Я все еще прорабатываю ваш очень подробный ответ (спасибо за него), но ваше упоминание о «байесовском вторжении» заставило меня подумать о «байесовских испытаниях в клинических испытаниях: спящий в момент смены», перепечатанный здесь как глава 12 , которую я Я тоже медленно оборачиваю голову.

— Эндрю Клаассен

«Вы достигли страницы, которая недоступна для просмотра, или достигли ограничения на просмотр этой книги» ...?

— Ник Стаунер

Это прискорбно. Если у вас есть доступ к журналу, вы также можете найти его здесь . Поиск фразы «байесовцы теперь разрушают традиционные барьеры в клинических испытаниях» также может помочь вам.

— Эндрю Клаассен

Окончательный крах теоретической основы решения Неймана-Пирсона и рост неофишериана также содержат интересную историю р-значений и атаки на использование байесовского анализа в исследованиях. Я не могу сказать, что понимаю это достаточно хорошо, чтобы оценить это, но я полагаю, что хорошо, по крайней мере, знать о корректирующих способностях к текущему энтузиазму.

— Эндрю Клаассен

@NickStauner Только что нашел это обсуждение. Не обязательно, чтобы по крайней мере одна учетная запись была неправильной, если есть набор учетных записей, которые не согласны. Они могут быть основаны на разных моделях. [Если вы играете, вы должны прочитать книгу Билла Томпсона «Природа статистических доказательств» (2005).] Тем не менее, мой отчет определенно прав ;-) (Хотя только сегодня утром журнал снова отклонил его.) Я нашел статью Нуццо для быть небрежным и потенциально вводящим в заблуждение.

— Майкл Лью