Приспосабливая укоренившиеся представления значений p

Иногда в отчеты я включаю заявление об отказе от p-значений и другую логическую статистику, которую я предоставил. Я говорю, что, поскольку выборка не была случайной, такая статистика не будет строго применяться. Моя конкретная формулировка обычно приводится в сноске:

«В то время как, строго говоря, логическая статистика применима только в контексте случайной выборки, мы придерживаемся соглашения, сообщая об уровнях значимости и / или доверительных интервалах в качестве удобных критериев даже для неслучайных выборок. См. Статистический вывод Майкла Оукса : комментарий к социальным и поведенческие науки (NY: Wiley, 1986).

Пару раз - один раз для рецензируемой статьи, один или два раза в неакадемической обстановке - редактор или рецензент возразили против этого отказа от ответственности, назвав его запутанным, и посчитали, что выводы должны просто стоять как написано (и получить мантию власти). Кто-нибудь еще сталкивался с этой проблемой и нашел хорошее решение? С одной стороны, понимание людьми р-значений, как правило, мрачно, даже в контексте случайной выборки, поэтому, возможно, не имеет большого значения, что мы говорим. С другой стороны, дальнейшее недопонимание, по-видимому, составляет одну часть проблемы. Я должен добавить, что я часто имею дело с исследованиями, в которых случайное распределение не применяется и где симуляции Монте-Карло часто не решают проблему репрезентативности.

inference p-value

— rolando2
источник

комментарий к рецензенту крайне печален, можно надеяться, что человек, занимающий эту должность, по крайней мере, открыто не проявит своего невежества и тем самым еще больше поддержит неправильное толкование статистического метода.

— richiemorrisroe

Поправьте меня, если я ошибаюсь, но случайность выборки просто влияет на степень, в которой вы можете обобщить результаты. Напротив, случайное назначение является более критической характеристикой для причинного вывода.

— Майк Лоуренс

Майк, я согласен с тобой. Вы делаете это, чтобы расширить дискуссию или указать на несогласие с тем, что я сказал?

— rolando2

@richiemorrisroe: было бы глупо ожидать того же от всех рецензентов, но я полагаю, можно надеяться на будущее, в котором мы можем ожидать этого, и мы, безусловно, должны оказывать давление на издателей, чтобы они требовали и принуждали это больше, чем они делают в настоящее время .. .Роландо, я думаю, что у Майка это просто пояснение, чтобы избавить эту дискуссию от вопросов, связанных с причинно-следственной связью. Очевидно, некоторые люди сочли это полезным, хотя я подумал, что это было достаточно ясно, лично. Если я прав, это непреднамеренно измеряет замешательство других людей в отношении значений p , что мотивирует исходное сообщение!

— Ник Стаунер,

Ответы:

Действительно, есть аргумент, чтобы не включать отказ от ответственности. Честно говоря, я бы нашел небольшой трактат о природе p-значений в журнальной статье, который немного отталкивает, и на мгновение пришлось бы остановиться и попытаться выяснить, не сделали ли вы что-то особенно ... .esoteric ... оправдать выделение этого места для определения.

Как рецензент, я бы назвал это ненужным, потому что читатель уже должен знать, что такое p-значение и что оно делает. Я мог бы даже возразить против этого, потому что создание такой заметки на самом деле не предотвращает ни одно из многих преступлений анализа и интерпретации, которые сопровождают р-значения, это просто надевает плащ «доверяй мне, я знаю, что я делаю». Это также немного странно - «Я собираюсь сделать смелое выступление против p-значений, но не настолько смелое, я не сообщу о них».

Когда я рассматриваю «укоренившиеся представления о p-значениях», я гораздо меньше беспокоюсь о чем-то вроде того, что вы опубликовали выше, и гораздо больше беспокоюсь о настойчивости рецензентов в статистической значимости для публикации или в фокусе статьи ( звезда, обнаруженная и внезапно ставшая большой выгодой) или сочетающая статистическую значимость со значением открытия.

— фомиты
источник

Я не думаю, что это отвечает ОП. Я предполагаю, что @ rolando2 сообщает о других статистических показателях, которые являются более важными для его обсуждений (например, размеры эффектов), и в основном сообщает значения p как один из способов удовлетворения обычных ожиданий, даже если они не применяются строго. Таким образом, мы должны быть оттеснены в той степени, в какой мы слишком много читаем в значения p ; мы должны рассмотреть его мотивацию для отказа от ответственности. Читатели не знают, что им нужно; ОП упоминает об этом. Отказ от ответственности способствует сомнению, а не доверию. Не так уж странно возражать против стандарта, в то же время соответствуя ему; это не смелая позиция.

— Ник Стаунер,

@NickStauner Я не понимаю, как он не "отвечает" на ОП. Возможно, это не поддерживает то, что они хотят сделать, но, на мой взгляд, это действительно странный разрыв с фактическим содержанием статьи, а также бесполезно: «Это неправильно, но я собираюсь сражаться, как будто это правильно, потому что это то, что вы все ожидаете "не говорит мне, если имеет значение неправильность .

— Fomite

Вопрос ОП: «Кто-нибудь еще сталкивался с этой проблемой и нашел хорошее решение?» Ваш ответ игнорирует буквальный вопрос в ответ на идею, и в основном предлагает ваше мнение о том, почему идея должна быть отклонена. Вы начинаете намекать на конструктивную критику идеи ОП: вы, кажется, не думаете, что цитата Оукса говорит вам, почему это важно. Я подробно остановлюсь на этом в своем собственном ответе.

— Ник Стаунер

Использование логической статистики может быть оправдано не только на основе популяционной модели, но и на основе модели рандомизации. Последний не делает никаких предположений о том, как был получен образец. Фактически, именно Фишер предположил, что модель рандомизации должна быть основой для статистического вывода (в отличие от Неймана и Пирсона). Смотрите, например:

Ernst, MD (2004). Методы перестановок: основа для точного вывода. Статистическая наука, 19, 676-685. [ссылка (открытый доступ)]

Ludbrook, J. & Dudley, H. (1998). Почему перестановочные тесты превосходят t и F тесты в биомедицинских исследованиях. Американский статистик, 52, 127-132. [ссылка (если у вас есть доступ к JSTOR)]

Я почему-то сомневаюсь, что редакторы или рецензенты использовали это как причину для того, чтобы назвать ваш отказ от ответственности «запутанным».

— Wolfgang
источник

Вольфганг - интересные и полезные моменты. Я должен был ясно дать понять, что большая часть моей работы связана с исследованиями.

— rolando2

Если основная цель состоит в том, чтобы сделать какой-то вывод для совокупности, а механизм выборки имеет такой характер, что репрезентативность выборки сомнительна, тогда действительно, любой вывод также будет довольно сомнительным. По сути, вы можете сделать вывод только для той части совокупности, для которой механизм выборки обеспечивает представление. В принципе, сделанные вами выводы будут подходить для этой части населения. Представляет ли эта часть населения какой-либо интерес для вас (или читателей) - это другой вопрос.

— Вольфганг

$p$ значения на самом деле необходимо сообщать, несмотря на их ничтожную недействительность в проблемном исследовании (класс, в который попадает слишком много опубликованных статей), их можно неявно преуменьшать. Вместо этого подумайте о том, чтобы сфокусировать свое повествование - возможно, даже исключительно - на эффектах. Если ваше исследование является достаточно репрезентативным, чтобы быть полезным информативным (это не должно требовать совершенно случайной выборки, только осторожность в общности интерпретаций), размеры вашего эффекта должны иметь более широкие последствия, чем просто указание на существование и направления отношений или различий в любом случае. Сосредоточение дискуссии на размерах эффекта может способствовать более глубокому пониманию того, насколько важны отношения или различия в практическом смысле, хотя это все еще необходимо учитывать в контексте предмета исследования (например, $r = .03$ $p$ $p$ $p$

Другим, потенциально дополнительным вариантом будет расширение вашей сноски. Как ваши описания проблемы, которую испытали рецензенты, так и принятый в настоящее время ответ на этой странице, указывают на то, что недостаточно информации, чтобы объяснить вашу мотивацию для включения сноски, или недостаточно, чтобы мотивировать читателя следовать вашей цитате к ссылке. что вы используете, чтобы объяснить это так кратко. Одно дополнительное предложение, даже краткая цитата из вашей ссылки, может в значительной степени объяснить ценность вашей сноски и побудить читателей читать глубже. Очевидно, что ваша сноска как можно раньше мотивирует простую, негативную, пренебрежительную реакцию на вашу заниженную попытку нарушить их самодовольство по поводу их неправильных предположений. Читатели могут быть немного менее интеллектуально ленивы, если вы кормите их одним или двумя главными пунктами о проблемах, которые они, вероятно, упускают из виду. Кроме того, для многих особых проблем с $p$

$p$

$p$ $p$ $p$

Ссылки

^{- Goodman, SN (1992). Комментарий к репликации, P-значения и доказательства. Статистика в медицине, 11 (7), 875–879.

- Goodman, SN (2001). Из P -значения и Байеса: скромное предложение. Эпидемиология, 12 (3), 295–297. Получено с http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman S. (2008). Грязная дюжина: двенадцать неправильных представлений о P- значении. Семинары по гематологии, 45 (3), 135–140. Получено с http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Горроохурн П., Ходж С.Е., Хейман Г.А., Дюрнер М. и Гринберг Д.А. (2007). Отсутствие репликации ассоциативных исследований: «псевдо-неудачи» для репликации? Генетика в медицине, 9 (6), 325–331. Получено с http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH & Lombardi, CM (2009). Окончательный крах теоретической основы решения Неймана – Пирсона и рост неофишерианства. Annales Zoologici Fennici, 46 (5), 311–349. Получено с http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Лью, МДж (2013). К P или нет к P: Об доказательной природе P-значений и их месте в научном заключении. arXiv: 1311.0081 [stat.ME]. Полученное изhttp://arxiv.org/abs/1311.0081 .

- Нуццо Р. (2014, 12 февраля). Научный метод: статистические ошибки. Новости природы, 506 (7487). Получено с http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .

- Розенталь Р., Роснов Р.Л. и Рубин Д.Б. (2000). Контрасты и величины эффекта в поведенческих исследованиях: корреляционный подход. Издательство Кембриджского университета.

- Senn S. (2001). Два ура для P-значений? Журнал эпидемиологии и биостатистики, 6 (2), 193–204. Получено с http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .

- Wagenmakers, EJ (2007). Практическое решение распространенных проблемр значения. Psychonomic Bulletin & Review, 14 (5), 779–804. Получено с http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Ник Стаунер
источник

Не вся критика P-значений является правильной или оправданной, несмотря на их страстность. Вы должны увидеть эти две статьи для нескольких контрапунктов к комментариям, которые вы цитируете: Два Приветствия для значений P (Стивен Сенн) phil.vt.edu/dmayo/conference_2010/… ; П или не П (от меня) arxiv.org/abs/1311.0081

— Майкл Лью,

Отличный момент! Спасибо! Я немного отредактировал, чтобы включить ваши вклады, и я могу отредактировать немного больше, как только я достаточно хорошо понимаю их, чтобы включить их значение в остальную часть того, что я сказал. Вот почему я люблю Cross Validated ...

— Ник Стаунер

Есть ли у вас какие-либо экспериментальные доказательства в пользу вашего утверждения о том, что допущение Эдвардса распространяется на p-значения? Я считаю себя чрезвычайно скептическим. По моей аналогии, я видел пару работ, которые демонстрируют, что даже опытные ученые, работающие с данными, не могут оценить коэффициент корреляции по диаграмме рассеяния. Похоже, вы спрашиваете у ученых гораздо больше, чтобы понять, что значение ap означает с точки зрения вероятности. Ваш аргумент в пользу функций правдоподобия интересен ... они действительно похожи на апостериорные распределения, не так ли?

— Расселпирс

@rpierce У меня нет экспериментальных данных для понимания пользователей статистических методов. Я бы, однако, утверждал, что, по крайней мере, некоторые из исследований, которые были проведены, чтобы увидеть, «понимают» ли ученые p-значения, фатально ошибочны, если не включить в число вариантов истинное доказательно значимое описание p-значения. Ваша аналогия не является близкой, потому что тот факт, что коэффициенты корреляции не так легко оценить, - это не та же проблема, что и оценка достоверности по p-значению.

— Майкл Лью

@rpierce Апостериорная функция плотности вероятности из равномерного априора будет пропорциональна функции правдоподобия.

— Майкл Лью