Что является хорошим, убедительным примером, в котором p-значения полезны?


64

Мой вопрос в названии говорит сам за себя, но я хотел бы дать ему некоторый контекст.

Ранее на этой неделе ASA опубликовала заявление « о p-значениях: контекст, процесс и цель », в котором изложены различные распространенные заблуждения о p-значении и содержится настоятельная рекомендация не использовать его без контекста и обдумывания (что можно сказать только о любой статистический метод, правда).

В ответ на ASA профессор Matloff написал сообщение в блоге под названием: « Через 150 лет ASA говорит нет p-значениям» . Затем профессор Бенджамини (и я) написал ответную статью под названием « Это не ошибка р-значений» - размышления о недавнем заявлении ASA . В ответ на это профессор Matloff спросил в последующей записи :

То, что я хотел бы видеть [... это] - хороший, убедительный пример, в котором полезны p-значения. Это действительно должно быть суть.

Чтобы процитировать его два основных аргумента против полезности значения:p

  1. С большими выборками тесты значимости набрасываются на крошечные, незначительные отклонения от нулевой гипотезы

  2. В реальном мире почти нет нулевых гипотез, поэтому проверка их значимости абсурдна и причудлива.

Мне очень интересно, что другие перекрестно утвержденные члены сообщества думают об этом вопросе / аргументах, и что может составить хороший ответ на него.


5
Обратите внимание на еще две темы, связанные с этой темой: stats.stackexchange.com/questions/200500/… и stats.stackexchange.com/questions/200745/…
Тим

2
Спасибо, Тим. Я подозреваю, что мой вопрос настолько отличается, что заслуживает отдельного обсуждения (тем более, что он не получил ответа в двух упомянутых вами). Тем не менее, ссылки очень интересные!
Тал Галили

3
Это заслуживает и интересно (отсюда мой +1), я предоставил ссылки только к вашему сведению :)
Тим

3
Я должен сказать, что я (пока) не читал то, что Мэтлофф написал по этой теме, но, тем не менее, для того, чтобы ваш вопрос встал сам по себе, вы, возможно, кратко суммируете, почему он не находит какого-либо стандартного примера использования p-значений " хорошо / убедительной "? Например, кто-то хочет изучить, меняет ли экспериментальная манипуляция поведение животных в определенном направлении; поэтому экспериментальные и контрольные группы измеряются и сравниваются. Как читатель такой статьи, я рад видеть значение p (то есть они полезны для меня), потому что, если оно большое, мне не нужно обращать внимание. Этот пример не достаточно?
говорит амеба: восстанови Монику

1
@amoeba - он перечисляет их здесь: matloff.wordpress.com/2016/03/07/… ----- Цитируя свои аргументы: 1) при больших выборках тесты значимости набрасываются на крошечные, неважные отклонения от нулевой гипотезы. 2) Практически никакие нулевые гипотезы не верны в реальном мире, поэтому выполнение теста значимости для них абсурдно и странно. ----- У меня есть свой взгляд на эти вопросы (который я хотел бы позже формализовать), но я уверен, что у других будут проницательные способы ответить на этот вопрос.
Тали Галили

Ответы:


44

Я рассмотрю оба вопроса Матлоффа:

  1. С большими выборками тесты значимости набрасываются на крошечные, незначительные отклонения от нулевой гипотезы

    Логика здесь в том, что если кто-то сообщает об очень значительном , то только по одному этому числу мы не можем сказать, является ли эффект большим и важным или неуместно крошечным (как это может случиться с большим ). Я нахожу этот аргумент странным и вообще не могу с ним связаться, потому что я никогда не видел исследования, в котором бы сообщалось о значении без сообщения [некоторого эквивалента] величины эффекта. Исследования, которые я читал, например, сказали бы (и обычно показывают на рисунке), что группа A имела такое-то и такое-то среднее значение, группа B имела такое-то и такое-то среднее значение, и они значительно различались с таким-и таким- значением. Очевидно, я могу сам судить, велика ли разница между A и B.н р рp=0.0001npp

    (В комментариях @RobinEkman указал мне на несколько высоко цитируемых исследований Ziliak & McCloskey ( 1996 , 2004 ), которые отметили, что большинство экономических статей озвучивают «статистическую значимость» некоторых эффектов, не обращая большого внимания на величину эффекта и его «практическое значение» (которое, как утверждают Z & MS, часто может быть незначительным). Это явно плохая практика. Однако, как объясняет @MatteoS ниже, величины эффекта (оценки регрессии) всегда сообщаются, поэтому мой аргумент в силе.)

  2. В реальном мире почти нет нулевых гипотез, поэтому проверка их значимости абсурдна и причудлива.

    Эта проблема также часто озвучивается, но и здесь я не могу по-настоящему подключиться к ней. Важно понимать, что исследователи не увеличивают свои до бесконечности . В той области неврологии, с которой я знаком, люди будут проводить эксперименты с или, может быть, , скажем, с крысами. Если эффекта не видно, то вывод состоит в том, что эффект недостаточно велик, чтобы быть интересным. Никто , я знаю , пошел бы по разведению, обучению, записи и жертвуя крыс , чтобы показать , что это какая - то статистически значимая , но крошечная эффект. И в то время как это может быть правдой , что почти никаких реальных эффектов не в точности равна нулю, то естьn = 20 n = 50 n = 5000n n=20n=50n=5000 безусловно, верно, что многие реальные эффекты достаточно малы, чтобы их можно было обнаружить при разумных размерах выборки, которые на самом деле используют разумные исследователи, используя свое здравое суждение.

    (Существует обоснованное опасение, что размеры выборки часто недостаточно велики и что многие исследования недостаточно эффективны. Поэтому, возможно, исследователи во многих областях должны стремиться, скажем, к вместо Тем не менее, независимо от размера выборки , это накладывает ограничение на размер эффекта, который исследование может обнаружить.)n = 20n=100n=20

    Кроме того, я не думаю, что согласен с тем, что почти никакие нулевые гипотезы не верны, по крайней мере, в экспериментальных рандомизированных исследованиях (в отличие от наблюдательных). Две причины:

    • Очень часто есть направление к прогнозу, который проверяется; Исследователь стремится продемонстрировать, что некоторый эффект является положительным . По соглашению это обычно делается с помощью двустороннего теста, предполагающего нулевую точку но на самом деле это скорее односторонний тест, пытающийся отклонить . (Ответ @ CliffAB, +1, указывает на это.) И это, безусловно, может быть правдой.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0

    • Даже говоря о точке «ноль» нуль , я не понимаю, почему они никогда не соответствуют действительности. Некоторые вещи просто не имеют причинно-следственной связи с другими вещами. Посмотрите на психологические исследования, которые не воспроизводятся в последние годы: люди чувствуют будущее; женщины одеваются в красное при овуляции; наполнение старческими словами, влияющими на скорость ходьбы; и т.д. Это может быть очень хорошо , что нет причинно - следственных связей здесь вообще и поэтому истинные эффекты точно равны нулю.H0:δ=0

Сам Норм Матлофф предлагает использовать доверительные интервалы вместо значений, поскольку они показывают величину эффекта. Доверительные интервалы хороши, но отмечают один недостаток доверительного интервала по сравнению с значением: доверительный интервал сообщается для одного конкретного значения покрытия, например, . Видя доверительный интервал не могу сказать, насколько широким будет доверительный интервал . Но одно значение можно сравнить с любым и разные читатели могут иметь в виду разные альфы.р 95 % 95 % 99 % р αpp95%95%99%pα

Другими словами, я думаю, что для тех, кто любит использовать доверительные интервалы, значение является полезной и значимой дополнительной статистикой для отчета.p


Я хотел бы дать длинную цитату о практической полезности значений от моего любимого блоггера Скотта Александра; он не статистик (он психиатр), но имеет большой опыт чтения психологической / медицинской литературы и изучения статистики в ней. Цитата из его сообщения в блоге о поддельном исследовании шоколада, которое я очень рекомендую. Акцент мой.p

[...] Но предположим, что нам не разрешено делать . Все, что я делаю, это говорю вам: «Да, было проведено исследование с пятнадцатью людьми, которые нашли, что шоколад помог с резистентностью к инсулину», и вы смеетесь мне в лицо. Размер эффекта должен помочь с этим. Но предположим, я говорю вам: «Было исследование с пятнадцатью людьми, которые обнаружили, что шоколад помог с резистентностью к инсулину. Размер эффекта был ». У меня нет никакой интуиции, чтобы понять, соответствует ли это случайному шуму. Вы? Хорошо, тогда они говорят, что мы должны сообщать доверительные интервалы. Величина эффекта составляла с доверительным интервалом0,6 0,6p0.60.6[ 0,2 , 1,0 ] р 95 % р 0,0595%[0.2,1.0], Хорошо. Поэтому я проверяю нижнюю границу доверительного интервала, я вижу, что он отличается от нуля. Но теперь я не переступаю через значение. Я просто использую значение p, выполняя своего рода хитрое вычисление его самого - « доверительный интервал не включает ноль» - это то же самое, что « значение меньше ».p95%p0.05

(Представьте, что, хотя я знаю, что доверительный интервал не включает ноль, я начинаю задаваться вопросом, если доверительный интервал имеет. Если бы была какая-то статистика, которая дала бы мне эту информацию!)99 %95%99%

Но разве избавление от значений не предотвратит « взлом»? Возможно, но это просто уступило бы «хакерству». Вы не думаете, что могли бы проверить двадцать различных метаболических параметров и сообщить только тот, который имеет максимальный размер эффекта? Единственное отличие будет то , что р-хакинг полностью прозрачен - если вы делаете двадцать тестов и сообщить о о , я знаю , что ты идиот , - но d-взлом будет непроницаем. Если вы проведете двадцать тестов и сообщите, что один из них получил , это впечатляет? [...]р р 0,05 д = 0,6ppp0.05d=0.6

Но не помешает ли переход от значений к размерам эффектов заставить людей задуматься о крошечных эффектах, которые, тем не менее, являются статистически значимыми? Да, но иногда мы хотим сделать большое дело о крошечных эффектах, которые, тем не менее, являются статистически значимыми! Предположим, что Coca-Cola тестирует новую добавку к продукту и обнаруживает в крупных эпидемиологических исследованиях, что она приводит к одной дополнительной смерти на сто тысяч человек в год. Это величина эффекта, приблизительно равная нулю, но она все равно может быть статистически значимой. И так как около миллиарда людей во всем мире пьют кока-колу каждый год, это десять тысяч смертей. Если бы кока-кола сказала: «Нет, размер эффекта слишком мал, не о чем думать», они убили бы почти двух миллилитров людей.p


Дальнейшее обсуждение различных альтернатив (включая байесовские) см. В моем ответе в ASA обсуждаются ограничения значений - каковы альтернативы?рpp


1
Ваш ответ на второй аргумент, по моему мнению, не соответствует действительности. Никто не предлагает реальным исследователям увеличивать размеры выборки до бесконечности. Дело (как я это вижу) в том, что любая нулевая гипотеза в форме "effect = 0", которую исследователь будет заинтересован в тестировании, будет ложной, и мало смысла в проведении проверки гипотезы, если нулевая гипотеза уже известно, что это ложь. Это, конечно, предполагает, что нас действительно интересует соответствующий параметр (и) населения, а не характеристики выборки.
mark999

1
Но я признаю, что «любая нулевая гипотеза ... будет ложной» - это только предположение.
mark999

1
Должен признать, что мои рассуждения здесь были довольно неформальными, и я никогда не пытался их формализовать. Возможно, чтобы заставить этот аргумент работать, я не должен говорить, что существует четкая граница между интересными и неинтересными величинами эффекта. Скорее, это континуум с интересностью, растущей дальше от нуля, и «разумный» размер выборки должен давать небольшую мощность для очень неинтересных размеров эффекта и большую мощность для очень интересных, но нет единого порога. Интересно, можно ли точно оформить это по линиям Неймана-Пирсона?
говорит амеба: восстанови Монику

6
Возможно, вы «никогда не видели исследования, в котором сообщалось бы о значении, не сообщая [некоторый эквивалент] величины эффекта», но Зилиак и Макклоски обнаружили около 300 таких работ, опубликованных в одном журнале The American Economic Review, всего за два десятилетия , Такие бумаги составляли более 70% всех бумаг, которые они просматривали. p
Робин Экман

3
@amoeba: источником заявления 70% может быть неоднозначная формулировка в аннотации 2006 года: «из 182 полноформатных работ, опубликованных в 1980-х годах в [AER], 70% не отличали экономическую и статистическую значимость». Под этим они понимают, как объясняется в обеих статьях, что часто комментируют только последнее, и что величина коэффициента регрессии по отношению к зависимой переменной («экономическая значимость» на их жаргоне) анализируется не так широко. , Но это всегда сообщается. Я предлагаю вам отредактировать свое обновление в ответе, чтобы отразить это :-)
MatteoS

29

Я очень обижен на следующие две идеи:

  1. С большими выборками тесты значимости набрасываются на крошечные, незначительные отклонения от нулевой гипотезы

  2. В реальном мире почти нет нулевых гипотез, поэтому проверка их значимости абсурдна и причудлива.

Это такой бессмысленный аргумент о p-значениях. Самая фундаментальная проблема, которая мотивировала развитие статистики, возникает из-за того, что мы наблюдаем тенденцию и хотим знать, является ли то, что мы видим, случайно или представителем систематической тенденции.

Имея это в виду, это правда, что мы, статистики, как правило, не считаем, что нулевая гипотеза верна (то есть , где - это средняя разница в некоторых измерениях между двумя группами). Однако с помощью двухсторонних тестов мы не знаем, какая альтернативная гипотеза верна! В двухстороннем тесте мы можем быть готовы сказать, что мы на 100% уверены, что до просмотра данных. Но мы не знаем, или . Поэтому, если мы запустим наш эксперимент и что , мы отклонили (как мог бы сказать Матлофф; бесполезное заключение), но, что более важно, мы также отклонилиμ d μ d0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0 (говорю; полезный вывод). Как отметил @amoeba, это также относится к одностороннему тесту, который потенциально может быть двусторонним, например, к проверке того, оказывает ли препарат положительный эффект.

Это правда, что это не говорит о величине эффекта. Но он говорит вам направление эффекта. Так что давайте не будем ставить телегу перед лошадью; прежде чем начать делать выводы о величине эффекта, я хочу быть уверенным, что у меня есть правильное направление эффекта!

Точно так же аргумент, что «p-значения набрасываются на крошечные, неважные эффекты», кажется мне совершенно ошибочным. Если вы рассматриваете значение p как меру того, насколько данные поддерживают направление вашего вывода, тогда, конечно, вы хотите, чтобы оно улавливало небольшие эффекты, когда размер выборки достаточно велик. Сказать, что это означает, что они бесполезны, очень странно для меня: эти области исследований, которые пострадали от значений p, - это те же самые, которые имеют столько данных, что им не нужно оценивать достоверность своих оценок? Точно так же, если ваши проблемы действительно состоят в том, что p-значения «набрасываются на крошечные величины эффекта», то вы можете просто проверить гипотезы иH 2 : μ d < - 1H1:μd>1H2:μd<1(при условии, что вы считаете 1 минимально важным размером эффекта). Это часто делается в клинических испытаниях.

Чтобы дополнительно проиллюстрировать это, предположим, что мы просто посмотрели на доверительные интервалы и отбросили p-значения. Какую первую вещь вы бы проверили в доверительном интервале? Был ли эффект строго положительным (или отрицательным), прежде чем воспринимать результаты слишком серьезно. Таким образом, даже без р-значений мы неофициально проводим проверку гипотез.

Наконец, что касается запроса OP / Matloff: «Дайте убедительный аргумент, что значения p значительно лучше», я думаю, что вопрос немного неловкий. Я говорю это потому, что, в зависимости от вашего взгляда, он автоматически отвечает сам на себя («приведите один конкретный пример, в котором проверка гипотезы лучше, чем не проверка их»). Однако, особый случай, который я считаю почти неоспоримым, - это данные RNAseq. В этом случае мы обычно смотрим на уровень экспрессии РНК в двух разных группах (то есть, больные, контроли) и пытаемся найти гены, которые дифференциально экспрессируются в этих двух группах. В этом случае сам размер эффекта даже не имеет смысла. Это связано с тем, что уровни экспрессии разных генов изменяются настолько сильно, что для некоторых генов увеличение экспрессии в 2 раза ничего не значит, в то время как для других жестко регулируемых генов более высокая экспрессия в 1,2 раза является фатальной. Таким образом, фактическая величина величины эффекта на самом деле несколько неинтересна при первом сравнении групп. Но тыдействительно, очень хочется узнать, меняется ли экспрессия гена между группами и направление изменения! Кроме того, гораздо сложнее решать вопросы множественных сравнений (для которых вы можете выполнять 20 000 из них за один прогон) с доверительными интервалами, чем с p-значениями.


2
Я не согласен с тем, что знание направления эффекта само по себе полезно. Если бы я плюнул на землю, я знаю , что это будет либо улучшить или ингибирования роста растений (то есть нулевая гипотеза об отсутствии эффекта является ложным). Как полезно знать направление этого эффекта без какой-либо информации о его величине? Но это единственное , что p- значение из вашего двустороннего теста / двух односторонних тестов (вроде) говорит вам! (Кстати, я думаю, что пример «плевок на землю» был заимствован из какой-то статьи о p-значениях, которую я прочитал несколько лет назад, но я не могу вспомнить, какой именно.)
Карл Ове Хуфтхаммер,

3
@KarlOveHufthammer: телега перед лошадью. Я не должен останавливаться только потому, что знаю направление эффекта. Но я должен позаботиться о том, чтобы у меня было правильное направление, прежде чем я начну беспокоиться о величине. Считаете ли вы, что научному сообществу будет лучше, если охватить все с большими оценочными эффектами без проверки p-значений?
Клифф AB

3
Более того, идея о том, что «p-значения не дают вам полезной информации», является просто небрежным использованием проверки гипотез. Вы можете легко проверить гипотезы и если считаете, что размер эффекта должен быть больше 1, чтобы быть в любом случае значимым. (отредактировал ответ, чтобы отразить это, так как я считаю, что это важный момент. Спасибо, что подняли его)H a : μ d < - 1Ha:μd>1Ha:μd<1
Клифф А.Б.

2
Вы сделали несколько очень хороших замечаний в редактировании. Мне очень нравится твой ответ сейчас!
говорит амеба: восстанови монику

3
Работая над своим ответом на stats.stackexchange.com/questions/200500, я натолкнулся на этот недавний препринт Wagenmakers и др., В котором они, по сути, утверждают вашу точку зрения о направленности: «Односторонним значениям P можно дать байесовскую интерпретацию в качестве приблизительного теста. направления, то есть проверка того, является ли скрытый эффект отрицательным или положительным. " Это интересно, потому что Вагенмакерс - твердолобый байесовец, он много писал против р-значений. Тем не менее, я вижу некоторое концептуальное соглашение здесь.
говорит амеба, восстанови Монику

6

Прости мой сарказм, но один очевидный хороший пример полезности p-значений - публикация. У меня был один экспериментатор, который подходил ко мне для получения p-значения ... он ввел трансген в отдельное растение для улучшения роста. Из этого единственного растения он произвел несколько клонов и выбрал самый большой клон, пример, где перечисляется все население. На свой вопрос рецензент хочет увидеть p-значение, которое этот клон является самым крупным. Я упомянул, что в этом случае нет никакой необходимости в статистике, так как он имел под рукой все население, но безрезультатно.

Более серьезно, по моему скромному мнению, с академической точки зрения, я нахожу эти дискуссии интересными и стимулирующими, точно так же, как дебаты против байесовских выступлений, проведенные несколько лет назад. Он выявляет различные точки зрения лучших умов в этой области и освещает многие допущения / ловушки, связанные с методологией, которая обычно не всегда доступна.

На практике, я думаю, что вместо того, чтобы спорить о лучшем подходе и заменять один некорректный критерий другим, как было предложено ранее, для меня это скорее раскрытие основной системной проблемы, и следует сосредоточиться на попытках найти оптимальный решения. Например, можно представить ситуации, когда p-значения и CI дополняют друг друга, и обстоятельства, при которых одно является более надежным, чем другое. В общей схеме вещей я понимаю, что все логические инструменты имеют свои недостатки, которые необходимо понимать в любом приложении, чтобы не препятствовать продвижению к конечной цели ... более глубокому пониманию системы обучения.


6

Я дам вам пример того, как p-значения должны использоваться и сообщаться. Это очень недавнее сообщение о поиске таинственной частицы на Большом адронном коллайдере (LHC) в ЦЕРНе .

Несколько месяцев назад в кругах физики высоких энергий было много возбужденных разговоров о возможности обнаружения большой частицы на LHC. Помните, это было после открытия бозона Хиггса . Вот отрывок из статьи «Поиск ATLAS Collaboration от 15 декабря 2015 года « Поиск резонансов, распадающихся на пары фотонов в 3,2 фб-1 pp-столкновений при √s = 13 ТэВ »с помощью детектора ATLAS, и мои комментарии следующие:

введите описание изображения здесь

Они говорят, что количество событий превышает то, что предсказывает стандартная модель . На рисунке ниже из статьи показаны p-значения избыточных событий в зависимости от массы частицы. Вы видите, как p-значение погружается около 750 ГэВ. Таким образом, они говорят, что есть вероятность, что новая частица обнаружена с массой, равной 750 Гига эВ . Значения p на рисунке рассчитаны как «локальные». Глобальные значения р намного выше. Это не важно для нашего разговора.

Важно то, что p-значения еще не являются «достаточно низкими» для того, чтобы физики могли объявить о находке, но «достаточно низкими», чтобы взволноваться. Таким образом, они планируют продолжать считать и надеяться, что эти значения p еще больше уменьшатся.

введите описание изображения здесь

Увеличить на несколько месяцев вперед, до августа 2016 г., Чикаго, конференции по HEP . Был представлен новый отчет «Поиск резонансного рождения пар фотонов с большой массой с использованием 12,9 фб-1 протон-протонных столкновений при √ s = 13 ТэВ и комбинированная интерпретация поисков при 8 и 13 ТэВ» на этот раз CMS Collaboration . Вот выдержки с моими комментариями снова:

введите описание изображения здесь

Итак, ребята продолжили собирать события, и теперь этот избыток событий на 750 ГэВ исчез. На приведенном ниже рисунке из бумаги показаны значения p, и вы можете увидеть, как значение p увеличилось по сравнению с первым отчетом. Таким образом, они печально приходят к выводу, что при 750 ГэВ частицы не обнаружены.

введите описание изображения здесь

Я думаю, что именно так предполагается использовать p-значения. Они полностью имеют смысл, и они четко работают. Я думаю, что причина в том, что частые подходы по своей природе естественны. Нет ничего субъективного в рассеянии частиц. Вы собираете достаточно большой образец и получаете четкий сигнал, если он там есть.

Если вы действительно хотите узнать, как именно p-значения вычисляются здесь, прочитайте эту статью : «Асимптотические формулы для основанных на вероятности тестов новой физики», Cowan et al.


2
Все надеялись, что пик в 750 ГэВ является реальным и сейчас печален. Но я на самом деле надеялся, что это будет колебание (и мог бы поспорить, что будет), и теперь я с облегчением. Я думаю, это круто, что стандартная модель работает так хорошо. Не совсем понимаю жгучее желание выйти за рамки стандартной модели (как будто все остальное в физике решено). В любом случае +1, хороший пример.
говорит амеба, восстанови Монику

2

Другие объяснения все в порядке, я просто хотел попытаться дать краткий и прямой ответ на вопрос, который возник у меня в голове.

Проверка ковариатного дисбаланса в рандомизированных экспериментах

Ваше второе утверждение (о нереалистичных нулевых гипотезах) неверно, когда мы проверяем ковариатный баланс в рандомизированных экспериментах, где мы знаем, что рандомизация была выполнена правильно. В этом случае мы знаем, что нулевая гипотеза верна. Если мы получим значительную разницу между лечением и контрольной группой по некоторому ковариате - после контроля нескольких сравнений, конечно - тогда это говорит нам о том, что мы получили «плохую ничью» в рандомизации, и мы, возможно, не должны доверять причинной оценке как много. Это связано с тем, что мы можем подумать, что наши оценки эффекта лечения от этой конкретной рандомизации «плохой ничьей» более далеки от истинных эффектов лечения, чем оценки, полученные из «хорошей ничьей».

Я думаю, что это идеальное использование р-значений. Он использует определение p-значения: вероятность получения значения как более экстремального, учитывая нулевую гипотезу. Если результат крайне маловероятен, тогда мы действительно получили «плохую ничью».

Балансовые таблицы / статистика также распространены при использовании данных наблюдений, чтобы попытаться сделать причинные выводы (например, сопоставление, естественные эксперименты). Хотя в этих случаях таблицы баланса далеко не достаточны для обоснования «причинной» метки для оценок.


Я не согласен, что это идеальное (или даже хорошее) использование p-значений. Как вы определяете «плохую ничью»?
mark999

2
@ Марк, хорошо. Я думаю, что могу ответить на ваш последний вопрос, пока Мэтта нет: конечно, в примере. Представьте себе рандомизированный эксперимент с 50 людьми. Представьте, что так получилось, что все 25 человек в группе А оказались мужчинами, а все 25 человек в группе В оказались женщинами. Совершенно очевидно, что это может вызвать серьезные сомнения в отношении любых выводов исследования; это пример "плохой ничьей". Мэтт предложил провести тест на различия в полу (ковариат) между А и В. Я не понимаю, как ответ Мэтта можно интерпретировать по-разному. Возможно, здесь вообще нет населения.
говорит амеба: восстанови монику

1
@ mark999 Но проверка на разницу между 12/25 и 13/25, очевидно, даст высокое незначительное p-значение, поэтому я не уверен, в чем ваша точка зрения. Мэтт предложил провести тест и рассмотреть низкое значение p как красный флаг. Нет красного флага в вашем примере. Я думаю, что я остановлюсь здесь и позволю Мэтту продолжить диалог, если он хочет.
говорит амеба, восстанови Монику

4
Нет. См. «Ошибка теста баланса»: gking.harvard.edu/files/matchse.pdf Вы описываете случай, когда сама статистика теста может быть хорошей (используется как мера расстояния для минимизации), но значение p для нее не дает смысл.
конъюнктурный

2
Для более позднего изучения этого вопроса в психо- и нейролингвистике существует новый препринт arXiv . Когда вы обдумываете манипулирование балансом и т. Д., Вы не случайная выборка, и даже если бы вы это делали, тесты отвечают на другой вывод о балансе в популяции, а не о балансе в выборке.
Ливий

2

Контроль уровня ошибок аналогичен контролю качества на производстве. У робота в производственной линии есть правило для определения того, что деталь является дефектной, что гарантирует не превышать указанную норму дефектных деталей, которые проходят незамеченными. Точно так же агентство, которое принимает решения об одобрении лекарств на основе «честных» P-значений, имеет способ поддерживать частоту ложных отклонений на контролируемом уровне по определению с помощью частых долгосрочных тестов. Здесь «честный» означает отсутствие неконтролируемых предубеждений, скрытых выборов и т. Д.

Однако ни робот, ни агентство не имеют личной заинтересованности в каком-либо конкретном лекарстве или части, которая проходит через сборочный конвейер. В науке, с другой стороны, мы, как отдельные исследователи, больше всего заботимся о конкретной гипотезе, которую мы изучаем, а не о доле ложных утверждений в нашем любимом журнале, который мы представляем. Ни величина P-значения, ни границы доверительного интервала (CI) не имеют прямого отношения к нашему вопросу о достоверности того, что мы сообщаем. Когда мы строим границы CI, мы должны сказать, что единственное значение этих двух чисел состоит в том, что если другие ученые выполняют такие же вычисления CI в своих исследованиях, 95% или любой другой охват будет поддерживаться в различных исследованиях в целом. ,

В этом свете я нахожу ироничным то, что P-значения «запрещены» журналами, учитывая, что в условиях кризиса тиражируемости они представляют большую ценность для редакторов журналов, чем для исследователей, представляющих свои статьи, в качестве практического способа сохранения Скорость ложных результатов, сообщаемых журналом в безвыходном положении, в долгосрочной перспективе. P-значения хороши для фильтрации, или, как писал IJ Good, они хороши для защиты задней части статистики, но не так сильно для задней части клиента.

PS Я большой поклонник идеи Бенджамини и Хохберга о принятии безусловных ожиданий в исследованиях с несколькими тестами. Согласно глобальному «нулевому», «частый» FDR все еще контролируется - исследования с одним или несколькими отклонениями появляются в журнале с контролируемой скоростью, хотя в этом случае любое исследование, в котором были сделаны некоторые отклонения, имеет пропорцию ложных отклонений, который равен единице.


1

Я согласен с Мэттом, что p-значения полезны, когда нулевая гипотеза верна.

Самый простой пример, который я могу вспомнить, - это тестирование генератора случайных чисел. Если генератор работает правильно, вы можете использовать любой подходящий размер выборки реализаций, и при тестировании соответствия по многим выборкам p-значения должны иметь равномерное распределение. Если они это сделают, это является хорошим доказательством правильной реализации. Если они этого не делают, вы знаете, что где-то допустили ошибку.

Другие подобные ситуации возникают, когда вы знаете, что статистика или случайная величина должны иметь определенное распределение (опять же, наиболее очевидный контекст - это симуляция). Если p-значения одинаковы, вы нашли поддержку действительной реализации. Если нет, то вы знаете, что где-то в вашем коде есть проблема.


1

Я могу вспомнить пример, в котором p-значения полезны в экспериментальной физике высоких энергий. См. Рис. 1 Этот график взят из этой статьи: Наблюдение новой частицы в поиске бозона Хиггса стандартной модели с детектором ATLAS на LHC

На этом рисунке p-значение показано в зависимости от массы гипотетической частицы. Нулевая гипотеза обозначает совместимость наблюдения с непрерывным фоном. Большое ( ) отклонение при m ГэВ было первым свидетельством и открытием новой частицы. Это принесло Франсуа Энглерту Нобелевскую премию по физике Питера Хиггса в 2013 году.H1255σH125

введите описание изображения здесь


1
Вам нужно предоставить больше информации о сюжете, с фоном и как он отвечает на исходный вопрос. Это недостаточно информации.
Greenparker

@ Greenparker, попытался добавить немного фона на сюжет.
Николас Гутьеррес

±1σ
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.