Что Фишер подразумевает под этой цитатой?


14

Я продолжаю видеть эту знаменитую цитату повсюду, но не могу понять подчеркнутую часть каждый раз.

Человек, который «отвергает» гипотезу временно, в порядке обычной практики, когда значение находится на уровне 1% или выше, наверняка будет ошибаться не более чем в 1% таких решений. Поскольку, когда гипотеза верна, он будет ошибаться только в 1% этих случаев, а когда она неверна, он никогда не ошибется в отклонении. [...] Тем не менее, расчет является абсурдным академическим, поскольку на самом деле ни один научный работник не имеет определенного уровня значимости, при котором из года в год он при любых обстоятельствах отвергает гипотезы; он скорее думает о каждом конкретном случае в свете своих доказательств и своих идей.Не следует забывать, что случаи, выбранные для применения теста, являются явно отобранным набором и что условия отбора не могут быть определены даже для одного работника; и что в использованном аргументе было бы явно нелегитимным выбирать фактический уровень значимости, указанный конкретным испытанием, как если бы он имел привычку на протяжении всей жизни использовать именно этот уровень.

(Статистические методы и научный вывод, 1956, стр. 42-45)

Конкретнее я не понимаю

  1. Почему кейсы выбираются для применения теста "высоко отобранные"? Допустим, вы удивляетесь, что средний рост людей на участке меньше 165 см, и решили провести тест. Насколько мне известно, стандартной процедурой является выборка случайных образцов из области и измерение их высоты. Как это можно выбрать?
  2. Предположим, что случаи тщательно отобраны, но как это связано с выбором уровня значимости? Рассмотрим снова приведенный выше пример, если ваш метод выборки (который, как я полагаю, является тем, что Фишер называет условиями отбора ) искажен и каким-то образом благоприятствует высоким людям, тогда все исследование рушится, и субъективное определение уровня значимости не может его спасти.
  3. п

Ответы:


15

Вот мой перефразировка того, что говорит Фишер в вашей жирной цитате. Не следует забывать, что выбор гипотезы, которую нужно проверить, довольно много, так много, что даже для решения одного человека вы не можете все это указать. Также не следует забывать, что по причинам, изложенным выше, вы не можете выбирать уровень значимости конкретного испытания всегда так же, как привычка на всю жизнь.

  1. Научная гипотеза выбрана как проверяющая против многих других конкурирующих гипотез из-за предвзятости исследователя и их текущего состояния знаний. Эти гипотезы являются «высоко выбраны», а не образцы; то гипотезы являются случаи , когда мы применяем тесты.

  2. Процесс выбора гипотез влияет на наш уровень значимости. Если мы очень уверены в гипотезе, это должно сделать уровень значимости менее строгим, чтобы удовлетворить себя. Если мы не уверены, бремя доказывания выше. В игру вступают и другие факторы, такие как ошибка типа I, которая хуже, чем ошибка типа II в испытаниях лекарств.

  3. Я думаю, что когда он говорит «указано», он просто означает «выбран для». Да, это предустановленное значение, в котором мы отвергаем гипотезу, если значение p является более экстремальным.


10

Фишер ссылается не на наблюдения, а на испытания. То есть мы выбираем гипотезы для проверки. Мы не просто проверяем случайные гипотезы - мы основываем их на наблюдениях, литературе, научных теориях и так далее.

Если вы сделали тест случайных гипотез, то сколько раз вы ошибаетесь (в первом предложении вашей цитаты) будет 1% (или любое значение выбрано). Например, если мы проверили такие гипотезы, как

  • Соотношение номера социального страхования человека связано с его IQ

  • Светловолосые люди бросают фрисби лучше, чем темноволосые

  • Время получения ответа на Cross Validated зависит от количества слогов в вашем имени.

И проверив целую кучу из них на 1%, мы бы отклонили ноль примерно в 1% случаев, и сделали бы это неправильно. (Если, конечно, я не нахожу что-то с вышеупомянутой ерундой).

Однажды я увидел статью о цвете волос и метании фризби - и это нашло разницу! Итак, я называю такие вещи «исследованием фрисби».

Но мне больше всего нравится цитата:

фактически ни один научный работник не имеет определенного уровня значимости, при котором из года в год он при любых обстоятельствах отвергает гипотезы; он скорее думает о каждом конкретном случае в свете своих доказательств и своих идей.

Должно быть, он вращается в своей могиле.


4
Это хороший ответ, но я не решаюсь расценивать «исследование Фрисби» как плохое. До тех пор, пока методологии используются должным образом (с учетом величины эффекта и т. Д.), Я считаю результат правдоподобным. Я имею в виду, что считается, что цвет волос не имеет никакого отношения к метанию фризби, но было признано, что Земля находится в центре вселенной до сотен лет назад! Мы можем критиковать людей за неправильные поступки, но мы не должны никого обвинять в том, что они задают вопросы. При этом я согласен, что некоторые гипотезы менее полезны, чем другие, но, тем не менее, они могут быть правильными .
nalzok

И они также могут быть ошибками типа I.
Питер Флом - Восстановить Монику

1
Связанный: xkcd.com/882
jkdev

2

Пытаясь увидеть фон цитаты, я пришел к версии книги (я не уверен, какая версия), которая имеет немного другую цитату

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Попытки объяснить достоверность тестов значимости в научных исследованиях, ссылаясь на гипотетические частоты возможных утверждений, основанных на том, являются ли они правильными или неправильными, таким образом, по-видимому, упускают сущность таких тестов. Человек, который «отвергает» гипотезу временно, как обычная практика, когда значение находится на уровне 1% или выше, наверняка будет ошибаться не более чем в 1% таких решений. Поскольку, когда гипотеза верна, он будет ошибаться только в 1% этих случаев, а когда она неверна, он никогда не ошибется в отклонении. Это утверждение неравенства может поэтому быть сделано. Тем не менее, расчет является абсурдным академическим, поскольку на самом деле ни один научный работник не имеет определенного уровня значимости, при котором из года в год и при любых обстоятельствах он отвергает гипотезы; он скорее думает о каждом конкретном случае в свете своих доказательств и своих идей. Кроме того, расчет основан исключительно на гипотезе, которая, в свете свидетельств, часто вообще не считается истинной, так что фактическая вероятность ошибочного решения, предполагающего, что такая фраза имеет какое-либо значение, может быть намного меньше, чем частота, указывающая уровень значимости. Для практического человека, который также отвергает гипотезу, это, конечно, вопрос безразличия, с какой вероятностью он может быть склонен принять ложную гипотезу, поскольку в его случае он не принимает ее. часто вообще не считается правдой, так что фактическая вероятность ошибочного решения, предполагающего, что такая фраза имеет какое-либо значение, может быть намного меньше, чем частота, указывающая уровень значимости. Для практического человека, который также отвергает гипотезу, это, конечно, вопрос безразличия, с какой вероятностью он может быть склонен принять ложную гипотезу, поскольку в его случае он не принимает ее. часто вообще не считается правдой, так что фактическая вероятность ошибочного решения, предполагающего, что такая фраза имеет какое-либо значение, может быть намного меньше, чем частота, указывающая уровень значимости. Для практического человека, который также отвергает гипотезу, это, конечно, вопрос безразличия, с какой вероятностью он может быть склонен принять ложную гипотезу, поскольку в его случае он не принимает ее.

Мне кажется, это критика использовать математическое выражение возможностей отклонения, ошибки типа I, в качестве строгого аргумента. Эти выражения часто не являются хорошим выражением того, что имеет отношение, и при этом они не являются строгими.

  1. Почему кейсы выбираются для применения теста "высоко отобранные"?

    Это похоже на предложение

    Кроме того, расчет основан исключительно на гипотезе, которая, в свете свидетельств, часто вообще не считается верной

    Мы не безразличны к проверяемой гипотезе, и часто проверяемая гипотеза не считается верной.

  2. как это связано с выбором уровня значимости?

    Это относится к

    так что фактическая вероятность ошибочного решения, предполагающего, что такая фраза имеет какое-либо значение, может быть намного меньше, чем частота, указывающая уровень значимости

    Р-значение только частота делает ошибку , когда нулевая гипотеза является истинной. Но фактическая частота ошибок будет другой (ниже).

  3. что такое «фактический уровень значимости, указанный конкретным испытанием», относящийся к

    Я считаю, что эта часть относится к некоторому взлому p-значения. Изменяя уровень значимости, альфа, после того, как наблюдения произошли, чтобы соответствовать наблюдаемому p-значению, и сделайте вид, что это было пороговое значение с самого начала.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.