Наведите указатель мыши на любой тег ( - поддельный тег), показанный ниже, чтобы увидеть краткую выдержку из его вики. Пожалуйста, прости за нарушение межстрочного интервала. Я считаю, что это полезно, потому что отрывки тегов могут помочь читателям проверить понимание жаргона при чтении. Некоторые из этих выдержек могут также заслуживать редактирования, поэтому они также заслуживают публициста, ИМХО.←
p < .05 p > .05p>.05 обычно подразумевает, что не следует отвергать нулевую гипотезу . И наоборот, ошибки типа i или ложные срабатывания возникают, когда кто-либо отклоняет нулевое значение из-за ошибки выборки или какого-либо другого необычного инцидента, в результате которого получается выборка, которая в противном случае была бы маловероятной (обычно с ), случайным образом выбранной из населения в котором ноль истинно. Результат с который называется ложноположительным, кажется, отражает неправильное понимание критерия значимости нулевой гипотезы.p<.05p>.05ing (NHST). Недопонимание нередко встречается в опубликованной исследовательской литературе, так как NHST общеизвестно нелогичен. Это один из сплоченных воплей байесовского вторжения (который я поддерживаю, но пока не следую ... пока). До недавнего времени я работал с ошибочными впечатлениями, такими как эти, поэтому я от всей души сочувствую.
@DavidRobinson прав в том, что не является вероятностью того, что ноль будет ложным в частом NHST. Это (по крайней мере) одно из ошибочных представлений Гудмана (2008) «Грязная дюжина» о значениях (см. Также Hurlbert & Lombardi, 2009 ) . В NHST, - это вероятность того, что кто-либо из будущих случайных выборок будет взят тем же способом, который продемонстрирует связь или разницу (или любой другой эффект-размер).p p p ppp pпроверяется на нулевое значение, если существуют другие варианты величины эффекта ...?), по крайней мере, столь же отличающиеся от нулевой гипотезы, что и выборка (и) из той же совокупности (ий), которую тестировали для достижения заданного значения , если ноль истинно. То есть - это вероятность получения образца, подобного вашему, с нулевым значением ; это не отражает вероятность нуля - по крайней мере, не напрямую. И наоборот, байесовские методы гордятся своей формулировкой статистического анализа, поскольку фокусируются на оценке доказательств за или против предыдущей теории эффекта с учетом данных , которые, как они утверждают, являются более интуитивно привлекательным подходом ( Wagenmakers, 2007).pp) , среди других преимуществ, и оставляя в стороне спорные недостатки. (Чтобы быть справедливым, см. « Каковы минусы байесовского анализа? ». Вы также прокомментировали, чтобы цитировать статьи, которые могут предложить некоторые хорошие ответы там: Moyé, 2008; Hurlbert & Lombardi, 2009. )
Можно утверждать, что нулевая гипотеза в буквальном смысле часто более вероятна, чем неправильная, потому что нулевые гипотезы чаще всего являются буквально гипотезами нулевого эффекта. (Для некоторых удобных контрпримеров см. Ответы на следующие вопросы: « Являются ли большие наборы данных неподходящими для проверки гипотез? ») Философские проблемы, такие как эффект бабочки, угрожают буквальной достоверности любой такой гипотезы; следовательно, нулевое значение наиболее полезно в качестве основы для сравнения альтернативной гипотезы некоторого ненулевого эффекта. Такая альтернативная гипотеза может остаться более правдоподобной, чем нулевая, после сбора данных, что было бы невероятным, если бы нулевое было верно, Следовательно, исследователи, как правило, делают вывод в пользу альтернативной гипотезы из доказательств против нуля, но это не то, что p-значения определяют количественно напрямую ( Wagenmakers, 2007 ) .
Как вы подозреваете, статистическая значимость является функцией размера выборки , а также размера эффекта и согласованности. (См @ ответ Гун на недавний вопрос, « Как может т-тест статистически значимыми , если средняя разница почти 0? ») Вопросы , которые мы часто намерены просить наших данных являются: «Что такое эффект x
на y
? " По разным причинам (в том числе из-за ИМО, неправильных образовательных и других недостатков образовательных программ в области статистики, особенно в том, что преподают не статистики), мы часто задаем себе вместо этого буквально свободный вопрос: «Какова вероятность выборки данных, таких как мои, случайным образом? от населения, в котором x
не влияетy
«Это существенная разница между оценкой величины эффекта и тестированием значимости, соответственно. Значение отвечает только на последний вопрос напрямую, но несколько специалистов (@rpierce, вероятно, мог бы дать вам лучший список, чем я; простите, что я вас втянул в это»). !) утверждают, что исследователи слишком часто неправильно истолковывают как ответ на прежний вопрос о величине эффекта; боюсь, я должен согласиться.рpp
Чтобы ответить более прямо относительно значения , это то, что вероятность выборки данных случайным образом из совокупности, в которой значение равно нулю, но которая демонстрирует отношение или различие, отличается от той, которую описывает значение нуля. в буквальном смысле по крайней мере такой же широкий и последовательный запас, как ваши данные ... <вдыхать> ... составляет от 5 до 95%. Можно, конечно, утверждать, что это является следствием размера выборки, потому что увеличение размера выборки улучшает способность обнаруживать небольшие и непоследовательные размеры эффекта и отличать их от нулевого, скажем, нулевого эффекта с достоверностью, превышающей 5%. Тем не менее, небольшие и противоречивые величины эффекта могут быть или не быть значимыми прагматически ( значимы статистически≠.05<p<.95≠- еще один из грязной дюжины Goodman's (2008); это зависит в большей степени от значения данных, статистическая значимость которых ограничена. Смотрите мой ответ на выше .
Не должно ли быть правильным назвать результат определенно ложным (а не просто не поддерживаемым), если ... p> 0,95?
Поскольку данные обычно должны представлять эмпирически фактические наблюдения, они не должны быть ложными; В идеале, риску должны подвергаться только выводы о них. (Ошибка измерения, конечно, тоже возникает, но эта проблема несколько выходит за рамки этого ответа, поэтому, помимо упоминания этого здесь, я оставлю это в покое в противном случае.) Всегда существует некоторый риск сделать ложноположительный вывод о том, что ноль менее полезен чем альтернативная гипотеза, по крайней мере, если выводящий не знает, что ноль является истиной. Только в довольно трудных для понимания обстоятельствах знания, что ноль является буквально истинным, будет вывод о том, что предпочтение альтернативной гипотезе будет определенно ложным ... по крайней мере, насколько я могу себе представить в данный момент.
Очевидно, что широко распространенное использование или соглашение не лучший авторитет в отношении эпистемической или логической достоверности. Даже опубликованные ресурсы подвержены ошибкам; см., например, ошибку в определении p-значения . Ваша ссылка ( Hurlbert & Lombardi, 2009 ) также предлагает интересное изложение этого принципа (стр. 322):
StatSoft (2007) хвастается на своем веб-сайте, что их онлайн-руководство «является единственным интернет-ресурсом по статистике, рекомендованным Encyclopedia Brittanica». Никогда еще не было так важно «не доверять», как гласит наклейка на бампере. [Комично неработающий URL преобразуется в гиперссылку.]
Другой пример: эта фраза в самой недавней статье Nature News ( Nuzzo, 2014 ) : «Значение P, общий показатель силы доказательств ...» См. Wagenmakers ' (2007, page 787) «Проблема 3: Значения не дают количественного подтверждения статистическим доказательствам "... Однако @MichaelLew ( Lew, 2013 ) не согласен с тем способом, который может оказаться полезным: он использует значения для индексации функций правдоподобия. Тем не менее, поскольку эти опубликованные источники противоречат друг другу, по крайней мере, один должен ошибаться! (На некотором уровне, я думаю ...) Конечно, это не так плохо, как "ненадежный" сам по себе.рppЯ надеюсь, что смогу уговорить Майкла перезвонить здесь, пометив его, как у меня (но я не уверен, что пользовательские теги отправляют уведомления при редактировании - я не думаю, что ваши в OP сделали). Возможно, он единственный, кто может спасти Нуццо - даже сама Природа ! Помогите нам, Оби-Ван! (И извините, если мой ответ здесь демонстрирует, что я все еще не понял значения вашей работы, что, я уверен, у меня есть в любом случае ...) Кстати, Nuzzo также предлагает некоторую интригующую самооборону и опровержение «Проблема 3» Вагенмейкерса: см. Рисунок «Вероятная причина» Нуццо и подтверждающие цитаты ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner & & Greenberg, 2007 ) . Это просто может содержать ответ, который вы
Re: ваш вопрос с множественным выбором, я выбираю d
. Возможно, вы неправильно истолковали некоторые концепции здесь, но вы, конечно, не одиноки, если так, и я оставлю вам суждение, поскольку только вы знаете, во что вы действительно верите. Неправильное толкование подразумевает определенную степень уверенности, тогда как постановка вопроса подразумевает обратное, и этот импульс к вопросу, когда неопределенность весьма похвальна и, к сожалению, далеко не повсеместен. Этот вопрос человеческой природы, к сожалению, делает наши соглашения неправильными и безвредными и заслуживает жалоб, подобных тем, на которые здесь ссылаются. (Частично спасибо вам!) Однако ваше предложение также не совсем корректно.
В этом вопросе появляется интересное обсуждение проблем, связанных со значениями в которых я принимал участие: адаптация укоренившихся представлений о значениях p . В моем ответе перечислено несколько ссылок, которые могут оказаться полезными для дальнейшего изучения проблем интерпретации и альтернативы значениям . Будьте предупреждены: я все еще не достиг нижней части этой конкретной кроличьей норы , но я могу, по крайней мере, сказать вам, что она очень глубокая . Я все еще узнаю об этом сам (иначе я подозреваю, что буду писать с более байесовской точки зрения [править]: или, возможно, с точки зрения NFSA ! Hurlbert & Lombardi, 2009 )рppЯ в лучшем случае слабый авторитет, и я приветствую любые исправления или уточнения, которые другие могут предложить к тому, что я здесь сказал. В заключение я могу лишь предположить, что математически правильный ответ, вероятно, существует, и, возможно, большинство людей ошибаются. Правильный ответ, конечно, не дается легко, как показывают следующие ссылки ...
PS В соответствии с просьбой (вроде ... я признаю, что на самом деле просто вместо этого работаю над этим), этот вопрос является лучшей справкой для иногда равномерного распределения с нулевым значением: " Почему p-значения равномерно распространяется по нулевой гипотезе? »Особый интерес представляют комментарии @ whuber, которые поднимают класс исключений. Как и в случае с обсуждением в целом, я не следую аргументам на 100%, не говоря уже об их последствиях, поэтому я не уверен, что эти проблемы с равномерностью распределения на самом деле являются исключительными. Боюсь, дальнейшая причина глубокой статистической путаницы ...рpp
Ссылки
- Goodman, SN (1992). Комментарий к репликации, P-значения и доказательства. Статистика в медицине, 11 (7), 875–879.
- Goodman, SN (2001). Из P -значения и Байеса: скромное предложение. Эпидемиология, 12 (3), 295–297. Получено с http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman S. (2008). Грязная дюжина: двенадцать неправильных представлений о P- значении. Семинары по гематологии, 45 (3), 135–140. Получено с http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Горроохурн П., Ходж С.Е., Хейман Г.А., Дюрнер М. и Гринберг Д.А. (2007). Отсутствие репликации ассоциативных исследований: «псевдо-неудачи» для репликации? Генетика в медицине, 9 (6), 325–331. Получено с http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH & Lombardi, CM (2009). Окончательный крах теоретической основы решения Неймана – Пирсона и рост неофишерианства. Annales Zoologici Fennici, 46 (5), 311–349. Получено с http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Лью, МДж (2013). К P или нет к P: Об доказательной природе P-значений и их месте в научном заключении. arXiv: 1311.0081 [stat.ME]. Извлекаются изhttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Байесовцы в клинических испытаниях: спят на рубеже. Статистика в медицине, 27 (4), 469–482.
- Нуццо Р. (2014, 12 февраля). Научный метод: статистические ошибки. Новости природы, 506 (7487). Получено с http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .
- Wagenmakers, EJ (2007). Практическое решение распространенных проблем значений p . Psychonomic Bulletin & Review, 14 (5), 779–804. Получено с http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .