Почему плохо учить студентов, что р-значения - это вероятность того, что результаты обусловлены случайностью?


34

Может, кто-нибудь, пожалуйста, предложит хорошее краткое объяснение, почему не стоит учить студентов, что значение р является вероятным (их результаты обусловлены [случайным] шансом). Насколько я понимаю, р-значение является вероятным (получение более экстремальных данных | нулевая гипотеза верна).

Мой реальный интерес заключается в том, что вредно говорить им, что это первое (кроме того факта, что это просто не так).


43
Потому что это неправильно?
whuber

6
Может быть, вы хотите простой пример, чтобы показать, что это не просто неправильно, а плохо?
Карл

2
Патрик, некоторые вещи - это просто факты, а не мнения: например, Пи не равен трем (несмотря на попытки законодательно установить это ). Но ваш комментарий действительно является полезным разъяснением: он предполагает, что вы не спрашиваете о вреде преподавания неправильных вещей, но действительно ищете причины, чтобы объяснить разницу людям.
whuber

2
Хорошее обсуждение этих вопросов по адресу stats.stackexchange.com/questions/5591/… даже среди ответов с более низким рейтингом (ИМХО).
whuber

1
Да, Карл, я думаю, я ищу примеры из реального мира. Те, кто занимается исследованиями, основанными на наблюдениях (например, наука об окружающей среде, экология, науки о дикой природе), были бы великолепны. Я прочитал эту ветку (whuber) до того, как опубликовал ее, а также несколько пабов. Спасибо за это, хотя.
Патрик

Ответы:


25

У меня другое понимание смысла неправильного утверждения, чем у @Karl. Я думаю, что это утверждение о данных, а не о нуле. Я понимаю, что спрашиваю о вероятности получения вашей оценки случайно. Я не знаю, что это значит - это не очень точное заявление.

Но я понимаю, что, вероятно, подразумевается под вероятностью получения моей оценки случайно, учитывая, что истинная оценка равна определенной величине. Например, я могу понять, что значит получить очень большую разницу в средней высоте между мужчинами и женщинами, учитывая, что их средняя высота на самом деле одинакова. Это хорошо указано. И это то, что дает значение р. Чего не хватает в неправильном утверждении, так это того условия, что ноль истинен

Теперь мы можем возразить, что это не идеальный оператор (например, вероятность получения точного значения для оценки равна 0). Но это намного лучше, чем то, как большинство интерпретирует значение p.

Ключевой момент, который я повторяю снова и снова, когда я преподаю проверку гипотез: «Первый шаг - это предположить, что нулевая гипотеза верна. Если люди помнят это, это очень хорошо.


О, это выглядит хорошо для меня. Я вижу, что делал то же самое, не замечая [вздох] (+1)
сопряженный

Но что из того, «что вредно»?
rolando2

15

Я видел эту интерпретацию много (возможно, чаще, чем правильную). Я интерпретирую, что «их результаты обусловлены [случайным] шансом» как « истинно», и в действительности они говорят, что [что на самом деле должно быть ; скажем, «учитывая то, что мы видели (данные), какова вероятность того, что действует только шанс?»] Это может быть значимым утверждением (если вы хотите назначать приоры и делать Байес), но это не -значение . H0Pr(H0)Pr(H0|data)

Pr(H0|data) может сильно отличаться от p-значения, и поэтому интерпретация p-значения таким способом может серьезно ввести в заблуждение.

Простейшая иллюстрация: скажем, предыдущий, довольно мал, но у него довольно мало данных, и поэтому значение p довольно длинное (скажем, 0,3), но заднее, , все равно будет довольно маленьким. [Но, может быть, этот пример не так интересен.]Pr(H0)Pr(H0|data)


Таким образом, Pr (H0 | data) == to prob (их результаты обусловлены [случайным] шансом)?
Патрик

@ Патрик - да.
Карл

1
@ Патрик - нет, определенно нет. В классической проверке гипотез не имеет смысла. Pr(H0|anything)
whuber

@whuber - но в этом все дело. «prob (их результаты обусловлены [случайным] шансом)» - это действительно который, я думаю, должен быть записан как . Это может иметь смысл (с априорами + байесовскими), но это не p-значение. Pr(H0)Pr(H0|data)
Карл

2
Хм, я думаю, что я все еще не следую, хотя я благодарен, что вы вызвали Байеса и предыдущие рассылки, чтобы дать контекст для вашего ответа и комментариев, которые в противном случае вызывают недоумение. Возможно, это потому, что я интерпретирую «выводы» как «данные», а не « ». Трудно обернуться вокруг концепции «нулевая гипотеза - случайность», даже в байесовской модели. (В байесовской схеме это утверждение не добавит никакой информации, которая еще не была принята с самого начала: все гипотезы являются случайными переменными.)H0
whuber

14

Я добавлю поздний ответ с точки зрения (бывшего) студента: ИМХО вред нельзя отделить от его неправильности.

Этот тип неправильных «дидактических аппроксимаций / сокращений» может создать большую путаницу для студентов, которые понимают, что не могут логически понять утверждение, но, предполагая, что то, чему их учат, правильно, они не понимают, что не способны понять его. потому что это не правильно.

Это не касается студентов, которые просто запоминают представленные им правила. Но это требует от студентов, которые учатся на понимании, быть достаточно хорошими, чтобы

  • прийти к правильному решению самостоятельно и
  • быть достаточно хорошими, чтобы они могли быть уверены, что они правы
  • и сделать вывод, что их учат чушь (по некоторым якобы дидактическим причинам).

Я не говорю, что нет действительных дидактических ярлыков. Но ИМХО, когда такой ярлык используется, об этом следует упомянуть (например, как «для простоты аргумента мы предполагаем / приближаем это ...»).
В этом конкретном случае, однако, я думаю, что это слишком вводит в заблуждение, чтобы быть полезным.


1
+1 Это очень хороший момент, если вы учите студентов чему-то неправильному, вы поощряете их создавать модель работы статистики, которая является ошибочной, и может привести к тому, что они неправильно поймут другие элементы статистики, включенные в программу ( например, что такое доверительный интервал - если вы поощряете студентов думать, что к гипотезе может быть присоединена вероятностная вероятность, то почему ее нельзя применить к гипотезе о том, что истинное значение лежит в определенном интервале). Понимание является истинной целью образования, и это требует точности.
Дикран Сумчатый

8

Обращаясь непосредственно к вопросу: где вред?

На мой взгляд, ответ на этот вопрос заключается в обратном утверждении: «Р-значение - это вероятность того, что результаты обусловлены случайной случайностью». Если кто-то верит в это, то он, вероятно, также верит в следующее: «[1- (p-значение)] - это вероятность того, что результаты НЕ связаны со случайной случайностью».

Тогда вред заключается во втором утверждении, потому что, учитывая то, как работает мозг большинства людей, это утверждение сильно переоценивает, насколько мы должны быть уверены в конкретных значениях оценочного параметра.


6

Вот простой пример, который я использую:

Предположим, что наша нулевая гипотеза состоит в том, что мы подбрасываем двуглавую монету (так что prob (глав) = 1). Теперь мы переворачиваем монету один раз и получаем головы, p-значения для этого равны 1, значит ли это, что у нас есть 100% шанс получить 2-головую монету?

Хитрость заключается в том, что если бы мы перевернули хвосты, то значение p было бы равно 0, а вероятность наличия двуглавой монеты была бы равна 0, поэтому они соответствуют в этом случае, но не выше. Значение p, равное 1 выше, просто означает, что то, что мы наблюдали, полностью соответствует гипотезе о двуглавой монете, но это не доказывает, что монета является двуглавой.

Кроме того, если мы делаем статистику частых случаев, то нулевая гипотеза является либо Истинной, либо Ложной (мы просто не знаем, какие именно), и делать (частые) вероятностные утверждения о нулевой гипотезе бессмысленно. Если вы хотите поговорить о вероятности гипотезы, тогда сделайте правильную байесовскую статистику, используйте байесовское определение вероятности, начните с априорной и вычислите апостериорную вероятность того, что гипотеза верна. Только не путайте p-значение с байесовским апостериором.


3

Хорошо, другой, немного другой взгляд на это:

Первой основной проблемой является фраза «из-за [случайного] случая». Идея неопределенного «случайности» естественна для студентов, но она опасна для ясного осмысления неопределенности и катастрофична для ведения разумной статистики. С чем-то вроде последовательности бросков монеты легко предположить, что «шанс» описывается биномиальной установкой с вероятностью 0,5. В этом наверняка есть определенная естественность, но со статистической точки зрения это не более естественно, чем допустить 0,6 или что-то еще. А для других менее «очевидных» примеров, например, с использованием реальных параметров, совершенно бесполезно думать о том, как будет выглядеть «шанс».

Что касается вопроса, ключевой идеей является понимание того, что - то из «случайности» описывается Н0, т.е. то , что фактическая вероятностные / имена DGP H0. Как только эта концепция введена в действие, студенты, наконец, перестают говорить о том, что происходит «случайно», и начинают спрашивать, что такое H0 на самом деле. (Они также выясняют, что вещи могут соответствовать довольно большому разнообразию Hs, поэтому они получают преимущество на доверительных интервалах с помощью инвертированных тестов).

Вторая проблема заключается в том, что если вы находитесь на пути к определению p-значений Фишером, вы должны (imho) всегда сначала объяснять это с точки зрения согласованности данных с H0, потому что смысл p заключается в том, чтобы увидеть это, а не интерпретировать область хвоста как некая «случайная» деятельность (или, если честно, вообще ее интерпретировать). Очевидно, это чисто риторический акцент, но, похоже, это помогает.

Короче говоря, вред состоит в том, что этот способ описания вещей не будет обобщать ни одну нетривиальную модель, о которой они могли бы впоследствии попытаться подумать. В худшем случае это может лишь добавить к загадочности, которую изучение статистики уже порождает у тех людей, на которых ориентированы такие обманчивые описания.


1

Если я разберусь, «р-значение - это вероятность того, что эффект обусловлен случайностью», это, похоже, подразумевает, что эффект вызван случайностью. Но каждый эффект частично вызван случайностью. На уроке статистики, где объясняется необходимость попытаться увидеть случайную изменчивость, это довольно волшебное и чрезмерное утверждение. Он наделяет p-значения полномочиями, которых у них нет.

Если в конкретном случае вы определяете случайность как нулевую гипотезу, вы утверждаете, что значение p дает вероятность того, что наблюдаемый эффект вызван нулевой гипотезой. Это кажется очень близким к правильному утверждению, но утверждение, что условие вероятности является причиной этой вероятности, снова превосходит все ожидания. Правильное утверждение, что p-значение - это вероятность эффекта, если нулевая гипотеза верна, не приписывает причину нулевому эффекту. Причины различны, включая истинный эффект, изменчивость вокруг эффекта и случайный случай. Значение p не измеряет вероятность любого из них.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.