Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?

80

Что касается p-значения s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %? $1$ $5$ "statistical significance" $6$ $10$

Есть ли фундаментальная математическая причина для этого или это просто широко распространенное соглашение?

— Контанго
источник

2

Что, если у всех было по 12 пальцев? Мы будем считать базу 12, а не базу 10. А это значит, что «1%» будет 1/144 или 0,0069444444.

— Контанго

77

Если вы проверите ссылки ниже, вы найдете довольно много изменений в фоновом режиме, хотя есть некоторые общие элементы.

Эти цифры, по крайней мере, частично основаны на некоторых комментариях Фишера, где он сказал

(при обсуждении уровня 1/20)

Удобно принять этот пункт за предел при оценке того, следует ли считать отклонение значительным или нет. Таким образом, отклонения, превышающие стандартное отклонение в два раза, формально считаются значительными

$\quad$ Fisher, RA (1925) Статистические методы для научных работников , с. 47

С другой стороны, он был иногда более широким:

Если один из двадцати не имеет достаточно высоких шансов, мы можем, если захотим, провести черту один к пятидесяти (точка 2%) или к одному из ста (точка 1%). Лично автор предпочитает устанавливать низкий уровень значимости на уровне 5 процентов и полностью игнорировать все результаты, которые не достигают этого уровня. Научный факт следует рассматривать как экспериментально установленный, только если правильно спланированный эксперимент редко не дает такого уровня значимости.

$\quad$ Фишер, Р. (1926) Расположение полевых экспериментов . Журнал Министерства сельского хозяйства, с. 504
$\quad$

Фишер также использовал 5% для одной из таблиц своей книги - но большинство других его таблиц имели большее разнообразие уровней значимости

Некоторые из его комментариев предлагают более или менее строгие (то есть более низкие или более высокие альфа-уровни) подходы в различных ситуациях.

Такого рода обсуждения выше привели к тенденции создавать таблицы с акцентом на 5% и 1% уровней значимости (а иногда и с другими, такими как 10%, 2% и 0,5%) для отсутствия каких-либо других «стандартных» значений.

Тем не менее, в этой статье Коулз и Дэвис предполагают, что использование 5% - или что-то близкое к этому - восходит дальше, чем комментарий Фишера.

Короче говоря, наше использование 5% (и в меньшей степени 1%) является в значительной степени произвольным соглашением, хотя очевидно, что многие люди считают, что по многим проблемам они находятся на подходящем уровне.

Нет причин, по которым следует использовать конкретное значение.

Дальнейшие ссылки:

Dallal, Gerard E. (2012). Маленький справочник статистической практики. - Почему 0,05?

Стиглер, Стивен (декабрь 2008). «Фишер и 5% уровень». Шанс 21 (4): 12. доступно здесь

(Между ними вы получаете достаточный опыт - похоже, что между ними есть хороший повод для размышлений об уровнях значимости, по крайней мере, в общем приблизительном балле 5%, скажем, между 2% и 10% - более или менее воздух на некоторое время.)

— Glen_b
источник

36

Я должен дать не ответ (так же, как здесь ):

«... конечно, Бог любит .06 почти так же, как и .05. Могут ли быть какие-либо сомнения в том, что Бог рассматривает силу доказательств за или против нуля как довольно непрерывную функцию величины р?» (P.1277)

Rosnow, RL & Rosenthal, R. (1989). Статистические процедуры и обоснование знаний в психологической науке. Американский психолог , 44 (10), 1276-1284. PDF

В документе содержится еще несколько дискуссий по этому вопросу.

— Хенрик
источник

9

А как насчет 0,055? :)

— Нико

33

@nico Никому не нравится

— 0.055

18

Я считаю, что есть некоторая базовая психология для 5%. Я должен сказать, что я не помню, где я поднял это, но вот упражнение, которое я делал для каждого старшекурсника.

Представьте, что в пабе к вам подходит незнакомец и говорит: «У меня есть предвзятая монета, которая производит головы чаще, чем хвосты. Вы хотите купить ее у меня, чтобы вы могли делать ставки со своими приятелями и зарабатывать на этом деньги?» Вы нерешительно соглашаетесь взглянуть и бросить монету 10 раз. Вопрос : сколько раз ему приходится приземляться головой / хвостом, чтобы убедить вас в том, что он предвзят?

Затем я поднимаю руку: кто будет убежден, что монета смещена, если раскол 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Ну, первые два или три никого не убедят, а последний убедит всех; 2/8 и 1/9 убедили бы большинство людей, все же. Теперь, если вы посмотрите биномиальную таблицу, 2/8 - 5,5%, а 1/9 - 1%. QED.

Если кто-то сейчас читает вступительный курс, я бы посоветовал вам тоже выполнить это упражнение и опубликовать свои результаты в виде комментариев, чтобы мы могли накопить большой массив результатов метаанализа и опубликовать их по крайней мере на американском языке. Учебный уголок статистиков . Не стесняйтесь менять и односторонние и двухсторонние условия! $n$

В другом ответе Glen_b цитирует Фишера, в котором обсуждается, следует ли изменять эти магические числа в зависимости от того, насколько серьезна проблема, поэтому, пожалуйста, не делайте этого. «Существует новое лечение лейкемии вашей сестры, но это либо вылечит ее 3 месяца или убейте ее за 3 дня, так что давайте подбросим несколько монет »- это выглядело бы так же глупо, как печально известный комикс xkcd, который даже Эндрю Гельману не очень понравился.

Говоря о монетах и Гельмане, у TAS была очень любопытная статья Гельмана и Нолана под названием «Вы можете загрузить кубик, но вы не можете сместить монетку» , выдвигая аргумент, что монета подбрасывалась в воздух или вращалась на настольная, потратит примерно половину времени на хедз-апы, а другое время - на хвосты, поэтому сложно придумать физический механизм для серьезного смещения монеты. (Очевидно, это было исследование паба, поскольку они экспериментировали с крышками от бутылок пива.) С другой стороны, загрузка штампа - это относительно простая вещь, и я дал своим студентам упражнение с примерно 1 см / половиной. -дюймовые деревянные кубики из местного магазина хобби и наждачная бумага с просьбой загрузить матрицу и доказать мне, что она загружена - что было упражнением в тесте Пирсона на пропорции и его мощность. $\chi^2$

— Stask
источник

3

Маги часто могут контролировать подбрасывание монет. Статистик-математик-маг (переставлять по вкусу) Перси Диаконис хорошо известен этим (и многим, многим другим).

— Ник Кокс

@StasK - Несколько лет назад я задал вопрос, аналогичный тому, который описан во втором абзаце выше. Вот ссылка: stats.stackexchange.com/questions/7036/…

— bill_080

Билл, вы спросили о власти, по сути. Этот вопрос касается уровня теста.

— StasK

9

5%, по-видимому, были округлены с 4,56% по Фишеру, что соответствует «хвостовым участкам кривой за пределами среднего плюс три или минус три вероятные ошибки» (Hurlbert & Lombardi, 2009).

Другим элементом этой истории является воспроизведение таблиц с критическими значениями (Pearson et al., 1990; Lehmann, 1993). Фишер не получил разрешения от Пирсона на использование его таблиц (вероятно, из-за маркетинга Пирсоном его собственной публикации (Hurlbert & Lombardi, 2009) и проблемного характера их отношений.

Hurlbert, SH & Lombardi, CM (2009, октябрь). Окончательный крах теоретической основы решения Неймана-Пирсона и рост неофишерианства. В Annales Zoologici Fennici (том 46, № 5, с. 311-349). Финское Зоологическое и Ботаническое Издательство

Lehmann, EL (1993). Теории проверки гипотез Фишера-Неймана-Пирсона: одна теория или две? Журнал Американской статистической ассоциации, 88 (424), 1242-1249.

Пирсон Е.С., Госсет В.С., Плакетт Р.Л. и Барнард Г.А. (1990). Студент: статистическая биография Уильяма Сили Госсета. Издательство Оксфордского университета, США.

См. Также: Gigerenzer, G. (2004). Бессмысленная статистика. Журнал социально-экономических, 33 (5), 587-606.

Хаббард Р. и Линдсей Р.М. (2008). Почему значения P не являются полезной мерой доказательства в тестировании статистической значимости. Теория и психология, 18 (1), 69-88.

— Jank
источник

7

Мне кажется, что ответ скорее в теории игр, чем в статистике. Сжигание 1% и 5% в общем сознании означает, что исследователи не могут эффективно выбирать уровни значимости, которые соответствуют их предрасположенности. Скажем, мы увидели бумагу с p-значением 0,055, где уровень значимости был установлен на уровне 6% - будут заданы вопросы. 1% и 5% обеспечивают форму заслуживающего доверия обязательства.

— гипотезы
источник

7

Может быть, но вы думаете, что исследователи не манипулируют регрессиями, не используют повторное тестирование и т. Д., Чтобы выжать, например, до установленного уровня 5% ...

— Кирк

Конечно, это возможно, и, вероятно, случается. Но вопрос был о 1% и 5%. Мне кажется, что это попытка создать социальную конвенцию о том, когда принимать что-то значимое. Они произвольны, но произвольны для исследователей как группы, а не произвольны для отдельных исследователей.

— предположения

3

Согласен, я только что указал, что наличие обычных уровней значимости не означает, что вопросы не следует задавать, как вы поняли в своем посте. Тот факт, что статья представляет значительный результат на обычном уровне, не означает, что он заслуживает доверия!

— Кирк

Ах, я использовал заслуживающий доверия в смысле теории игр (или пытался). Как и в случае, если вы делаете угрозу достоверной, если это не то, от чего вы можете отступить или передумать позже. В этом случае отдельным исследователям будет трудно выйти на какой-то другой произвольный порог.

— предположения

2

То, на что ссылается @kirk, определенно происходит. Это называется хакерство .

p

$p$

— Ник Стаунер

6

Моя личная гипотеза состоит в том, что 0,05 (или 1 из 20) связано со значением at / z (очень близким к) 2. Использование 2 - это хорошо, потому что очень легко определить, является ли ваш результат статистически значимым. Других слияний круглых чисел нет.

— Джереми Майлз
источник

7

Я сомневаюсь, что это правильно. Конечно, существуют «слияния круглых чисел»: почему бы, например, не использовать критическое значение или ? Более того, никто не стеснялся составлять обширные таблицы критических ценностей сто лет назад, поэтому трудно понять, откуда взялась мотивация.

Z = 1

$Z=1$

Z = 3

$Z=3$

— whuber

9

Наоборот, они дают хорошие цифры! Для нормального распределения шансы составляют около , , и для . Все эти приближения точнее, чем одно значимое число, и «1 из 20» является худшим из всех (1 из 22 будет гораздо ближе к истине).

1 / 3

$1/3$

1 / 20

$1/20$

1 / 400

$1/400$

1 / 16000

$1/16000$

z = 1, 2, 3, 4

$z=1,2,3,4$

— whuber

1

:) Хм ... хорошая мысль. Но вы должны быть ограничены тем, что вы использовали бы в качестве отсечки - 1/3 немного слабовато, 1/400 - жесткое касание.

— Джереми Майлз

10

Это именно то, к чему я стремлюсь, Джереми: традиция в 5% и 1% основана, по крайней мере частично, на концепции статистического риска («немного слабый» или «строгий») и изначально не вытекают из любого удобного эмпирического правила.

— whuber

1

@whuber Использование дает примерно , и вы не можете получить намного больше, чем это!

Z = 1

$Z=1$

1 / π

$1/{\pi}$

— Джеймс

6

Единственный правильный номер .04284731

... который является легкомысленным ответом, предназначенным для обозначения того, что выбор .05 по сути произвольный. Я обычно просто сообщаю значение p, а не то, что значение p больше или меньше.

«Значение» - это непрерывная переменная, и, на мой взгляд, ее дискретизация часто приносит больше вреда, чем пользы. Я имею в виду, что если р = 0,13, у вас больше уверенности, чем если р = 0,21 и меньше, чем если р = 0,003

— generic_user
источник

Что ж, во времена таблиц каждый был более или менее вынужден дискретизировать ... поскольку таблицы используются в обучении, это продолжается ...

— kjetil b halvorsen

@kjetilbhalvorsen хорошо, что создатели таблиц явно ошиблись, не выбрав .04284731 из-за своих критических значений.

— generic_user

2

Это область проверки гипотез, которая всегда очаровывала меня. Именно потому, что однажды кто-то определился с произвольным числом, которое дихотомизировало процедуру тестирования, и с тех пор люди редко подвергают ее сомнению.

Я помню, как лектор говорил нам не слишком доверять тесту инструментальных переменных Стейгера и Стокса (где F-stat должен быть выше 10 на первой стадии регрессии, чтобы избежать проблем со слабым инструментом), потому что число 10 было совершенно произвольный выбор. Я помню, как говорил: «Но разве это не то, что мы делаем с помощью регулярного тестирования гипотез?»

— EconStats
источник

5

@EconStats - это как ответ? Это больше похоже на комментарий. Помните, что резюме не предназначено для обсуждения. Не могли бы вы сделать ответ в этом посте более заметным?

— gung - Восстановить Монику

1

Извините @gung. Я предполагаю, что моя точка зрения состояла в том, что, несмотря на некоторые доказательства, предоставленные другими пользователями, я все еще думаю, что наиболее вероятный ответ заключается в том, что у нас есть система счисления, основанная на десятичной системе счисления, и она все еще используется сегодня, чтобы придумать произвольные числа для проверки гипотез. например, F-тест Staiger и Stock, о котором я упоминал.

— EconStats

1

Как оригинальный постер этого вопроса, я считаю, что это определенно считается ответом. Спасибо!

— Contango

0

Почему 1 и 5? Потому что они чувствуют себя хорошо.

Я уверен, что есть исследования эмоциональной ценности и когнитивной значимости конкретных чисел, но мы можем понять выбор 1 и 5, не прибегая к исследованиям.

Люди, которые создали сегодняшнюю статистику, родились, выросли и живут в десятичном мире. Конечно, существуют недесятичные системы подсчета, и подсчет до двенадцати с использованием фаланг возможен и был выполнен, но это не очевидно так же, как использование пальцев (которые поэтому называются «цифрами», как числа ). И хотя вы (и Фишер), возможно, знаете о недесятичных системах подсчета, десятичная система является и была преобладающей системой подсчета вашей (и мира Фишера) в последние сто лет.

Но почему цифры пять и один особенные? Потому что оба являются наиболее естественными подразделениями основной десятки: один палец, одна рука (или: половина).

Вам даже не нужно заходить так далеко, чтобы осмыслить дроби, чтобы получить от десяти до одного и пяти. Тот просто там, так же, как твой палец просто там. И наполовину что-то - операция, намного более простая, чем деление этого на любую другую пропорцию. Разрезание чего-либо на две части не требует размышлений, а деление на три или четыре уже довольно сложно.

Большинство валютных систем валют имеют монеты и банкноты со значениями, такими как 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Некоторые валютные системы не имеют 2, 20 и 200, но почти все имеют те, которые начинаются в 1 и 5. В то же время большинство валютных систем не имеют монеты или банкноты, которые начинаются с 3, 4, 6, 7, 8 или 9. Интересно, не правда ли? Но почему это так?

Потому что вам всегда нужны десять из 1 или два из 5 (или пять из 2), чтобы прийти к следующему большему заказу. Расчет с деньгами очень прост: раз десять или вдвое. Всего два вида операций. Каждая имеющаяся у вас монета составляет половину или десятую часть монеты следующего порядка. Эти числа умножаются и складываются легко и хорошо.

Таким образом, 1 и 5 были глубоко укоренились с самого раннего детства в Фишера, и тот, кто выбрал уровни значимости в качестве самых простых, самых простых, самых основных делений на 10. Любое другое число нуждается в аргументе для этого, в то время как цифры просто есть.

В отсутствие объективного способа расчета соответствующего уровня значимости для каждого отдельного набора данных, один и пять просто чувствуют себя хорошо.

«Не прибегая к исследованиям». Хотя я думаю, что ответ хороший, это твердо ставит его в поле зрения. Это придаст много доверия и сделает ответ более авторитетным, если будут источники, подтверждающие это.

— Момо