Происхождение порога «5 » для принятия доказательств в физике элементарных частиц?

33

В новостях говорится, что CERN объявит завтра, что бозон Хиггса был экспериментально обнаружен с 5 свидетельствами. Согласно этой статье: $\sigma$

5 соответствует вероятности 99,9994% того, что данные, которые видят детекторы CMS и ATLAS, представляют собой не просто случайный шум, а вероятность 0,00006% того, что их обманули; 5 - это необходимая уверенность для того, чтобы что-то официально называлось научным «открытием». $\sigma$ $\sigma$

Это не очень строгий, но , кажется, говорят , что физики используют стандарт «гипотеза тестирования» статистической методологии, установка к , что соответствует (два хвостами)? Или есть какой-то другой смысл? $\alpha$ $0.0000006$ $z=5$

Конечно, в большей части науки установка альфа на 0,05 выполняется регулярно. Это было бы эквивалентно доказательству «две », хотя я никогда не слышал, чтобы его так называли. Существуют ли другие области (помимо физики элементарных частиц), где стандартное определение альфа более строгое? Кто-нибудь знает ссылку на то, как правило пяти было принято физикой элементарных частиц? $\sigma$ $\sigma$

Обновление: я задаю этот вопрос по простой причине. В моей книге « Интуитивная биостатистика» (как и в большинстве книг по статистике) есть раздел, в котором объясняется, насколько произвольным является обычное правило «P <0,05». Я хотел бы добавить этот пример научной области, в которой намного (намного!) Меньшее значение считается необходимым. Но если пример на самом деле более сложный, с использованием байесовских методов (как предлагают некоторые комментарии ниже), то он не будет достаточно уместным или потребует гораздо большего объяснения. $\alpha$

hypothesis-testing p-value history

— Харви Мотульский
источник

2

Вы когда-нибудь слышали о "Шесть Сигма" ?

— Даниэль Р Хикс

В контроле качества рассматривается шесть сигм, как предлагает Даниил со своим вопросом / замечанием. Все эти вероятности отклонения предполагают выборку из нормального распределения, и хвостовые вероятности могут быть больше для других распределений. Использование таких крайностей, как 5 или 6 сигма, может быть полезным только в особых обстоятельствах. На практике размер выборки и изменчивость данных делают вывод более 2 или 3 сигма невозможным.

— Майкл Р. Черник

1

По сути, большинству физиков элементарных частиц более удобны байесовские идеи при расчете параметров, поэтому они на самом деле " уверены, учитывая данные и априоры, что сигнал Хиггса не равен нулю", что, безусловно, отличается от того, что существует только «0,01 процента вероятности того, что сигнал является случайным шумом» (есть и неслучайные флуктуации, возникающие и из систематики!). [1]: physics.stackexchange.com/questions/8752/…

X %

$X\%$

— Нестор

3

@ Нестор: Сейчас я смотрю прямую трансляцию пресс-конференции Хиггса, и никто не упоминает байесовские интерпретации. «p-значения» и «уровень значимости» используются, но только ужасно дезинформированный байесовский сигнал будет интерпретировать их как вероятность того, что сигнал является случайным шумом. Я думаю, что текст в цитате в вопросе ОП просто является неправильным толкованием того, что в действительности представляет значение р.

— MånsT

1

Кстати, я сделал сообщение в своем блоге об этой проблеме: randomastronomy.wordpress.com .

— Нестор

13

В большинстве приложений статистики есть старый каштан о том, что «все модели неправильны, некоторые полезны». В этом случае мы ожидаем, что модель будет работать только на заданном уровне, поскольку мы описываем какой-то невероятно сложный процесс с использованием некоторой простой модели.

Физика сильно отличается, поэтому интуиция, разработанная на основе статистических моделей, не так уж уместна. В физике, в частности в физике элементарных частиц, которая имеет дело непосредственно с фундаментальными физическими законами, предполагается, что модель действительно является точным описанием реальности. Любое отклонение от того, что предсказывает модель, должно быть полностью объяснено экспериментальным шумом, а не ограничением модели. Это означает, что если модель хороша и правильна, а экспериментальный аппарат понимает, статистическая значимость должна быть очень высокой, следовательно, устанавливается высокая планка.

Другая причина историческая: сообщество физиков элементарных частиц в прошлом было сожжено «открытиями» на более низких уровнях значимости, которые впоследствии были отозваны, поэтому сейчас они, как правило, более осторожны.

— богдановской
источник

1

Согласны ли вы с тем, что физика использует стандартную статистическую проверку гипотез с очень низким альфа-значением (в данном случае, во всяком случае). Или они используют какой-то байесовский подход, как сказал Нестор в комментарии выше?

— Харви Мотульский

2

Насколько я понимаю, общаясь с некоторыми из знакомых мне людей, которые работают в ATLAS, я понимаю, что анализ очень байесовский. Однако они - парни более низкого уровня (то есть те, кто фактически делает работу). Меня не удивило бы, если бы некоторые из говорящих голов выше по цепочке имели более слабое понимание интерпретации. Тем не менее, представление результатов LHC было довольно скудным, и на самом деле не выглядело очень байесовским, как отметили другие.

— Богдановец

2

Я всегда думал, что физика элементарных частиц, в частности, также имеет дело с миллиардами событий, поэтому вы должны установить планку очень высоко.

— Уэйн

11

История и происхождение

Согласно Роберту Д. Казинсу и Томмазо Дориго , происхождение порогового значения лежит в ранней работе по физике элементарных частиц 60-х годов, когда многочисленные гистограммы экспериментов по рассеянию были исследованы и искали пики / удары это может указывать на недавно обнаруженную частицу. Порог - это грубое правило, учитывающее множественные сравнения. $^{1}$ $^{2}$ $5\sigma$

Оба автора ссылаются на статью Розенфельда 1968 года , в которой рассматривался вопрос о том, существуют ли далекие мезоны и барионы, для которых было измерено несколько эффектов. Статья ответила на вопрос отрицательно, утверждая, что количество опубликованных претензий соответствует статистически ожидаемому количеству колебаний. Наряду с несколькими расчетами, поддерживающими этот аргумент, в статье предлагалось использовать уровень : $^3$ $4 \sigma$ $5\sigma$

Розенфельд: «Прежде чем мы приступим к обзору отдаленных масс-спектров, где отмечены удары в мы должны сначала решить, что порог значимости для спроса в 1968 году. Я хочу показать вам, что, хотя экспериментаторы, вероятно, должны отмечать эффекты, теоретики и феноменологи лучше подождать, пока эффект достигнет ". $(K\pi\pi)_{3/2},(\pi \rho)^{--}$ $3\sigma$ $>4\sigma$

и позже в газете (акцент мой)

Розенфельд: «Тогда, чтобы повторить мое предупреждение в начале этого раздела; мы генерируем не менее 100 000 потенциальных ударов в год, и следует ожидать нескольких колебаний и сотен . Каковы последствия? Для теоретика или феноменолог мораль проста: жди эффектов ". $4\sigma$ $3\sigma$ $5\sigma$

Томмазо, кажется, осторожен, заявляя, что это началось со статьи Розенфельда

Томмазо: «Тем не менее, мы должны отметить, что статья была написана в 1968 году, но строгий критерий пяти стандартных отклонений для заявлений об обнаружении не был принят в семидесятых и восьмидесятых годах. Например, не использовался такой термин, как критерий пяти сигм» за открытие бозонов W и Z, которые в 1984 году принесли Руббии и Ван дер Мееру Нобелевскую премию по физике ».

Но в 80-х годах использование было распространено. Например, астроном Стив Шнайдер упоминается в 1989 году , что она что - то преподается (подчеркнуть мое в цитате ниже): $5\sigma$ $^4$

Шнайдер: «Часто« уровни достоверности »в 95% или 99% приводятся для явно несоответствующих данных, но это составляет всего две или три статистические сигмы. Меня учили не верить ничему, кроме пяти сигм , что, если вы думаете, это абсурдно строгое требование - что-то вроде уровня достоверности 99,9999%. Но, конечно, такой предел используется, потому что фактический размер сигмы почти никогда не известен. В астрономии слишком много свободных переменных, которые мы можем не контролируете или не знаете.

Тем не менее, в области физики элементарных частиц многие публикации до сих пор основаны на расхождениях вплоть до конца 90-х годов. Это только изменилось на в начале 21-го века. Вероятно, это предписано в качестве руководства для публикаций около 2003 года (см. Пролог в книге Франклина «Стандарты изменения» ) $4\sigma$ $5\sigma$ $^5$

Франклин: К 2003 году критерий «наблюдения за 5» для стандартного отклонения, похоже, уже действовал

...

Член коллаборации BaBar напоминает, что примерно в это же время редакторы Physical Review Letters выпустили критерий 5 сигм в качестве руководства.

Современное использование

В настоящее время порог является стандартом учебника. Например, это встречается в виде стандартной статьи на phys.org или в некоторых работах Глена Коуэна, таких как раздел статистики в обзоре физики частиц из группы данных частиц (хотя и с несколькими критическими идентификаторами) $5\sigma$ $^6$ $^7$

Глен Коуэн: Часто в HEP уровень значимости, когда говорят, что эффект считается открытием, равен $Z = 5$ , то есть эффект , соответствующий p-значению , Однако фактическая степень уверенности в том, что новый процесс присутствует, будет в целом зависеть и от других факторов, таких как достоверность гипотезы нового сигнала и степень, в которой он может описывать данные, уверенность в модели, которая привело к наблюдаемому p-значению и возможным поправкам для нескольких наблюдений, из которых основное внимание уделяется наименьшему полученному p-значению («эффект поиска в другом месте»). $5\sigma$ $2.87 \times 10^{−7}$

Использование уровня теперь объясняется четырьмя причинами: $5\sigma$

История, основанная на практике, показала, что - это хороший порог. ( кажется, что экзотические вещи случаются случайно, даже между и сигмами , как в последнее время избыток дифотона 750 ГэВ ) $5\sigma$ $3\sigma$ $4\sigma$
Эффект поиска в другом месте (или множественные сравнения ). Либо потому, что проверяются несколько гипотез, либо потому, что эксперименты проводятся много раз, люди приспосабливаются к этому (очень приблизительно), устанавливая ограничение на . Это относится к аргументу истории. $5\sigma$
Систематические эффекты и неопределенность в $\sigma$ часто неопределенности результатов эксперимента не очень хорошо известны. происходит, но вывод включает в себя слабые предположения , такие как отсутствие систематических эффектов, или возможность игнорировать их. Увеличение порога, кажется, является своего рода защитой от этих событий. (Хотя это немного странно. Вычисленная не имеет отношения к размеру систематических эффектов, и логика разрушается, примером является «открытие» сверхсветовых нейтрино, которое, как сообщалось, имеет значение .) $\sigma$ $\sigma$ $6\sigma$
Чрезвычайные требования требуют чрезвычайных доказательств. Научные результаты часто публикуются, например, с использованием доверительных интервалов или значений p. Но они часто интерпретируются байесовским способом. Уровеньсчитается ответственным за это. $5\sigma$

В настоящее время Луи Лайонс написал несколько критических замечаний по поводу порога , а также ранее упомянутые статьи Роберта Д. Казинса и Томмазо Дориго содержат критические замечания. $5\sigma$ ${^{8,}}$ $^9$ $^{1}$ $^{2}$

Другие поля

Интересно отметить, что многие другие научные области не имеют аналогичных порогов или не занимаются каким-либо образом этой проблемой. Я полагаю, что это имеет некоторый смысл в случае экспериментов с людьми, когда очень дорого (или невозможно) продлить эксперимент, который дал бы значение 0,05 или 0,01.

Результатом игнорирования этих эффектов является то, что более половины опубликованных результатов могут быть ошибочными или, по крайней мере, не воспроизводимыми (Моня Бейкер аргументировала это в случае психологии , и я полагаю, что есть много другие, которые приводили аналогичные аргументы. Я лично думаю, что в науке о питании ситуация может быть еще хуже). И теперь люди из других областей, кроме физики, думают о том, как им следует решать эту проблему (случай медицины / фармакологии ). $^{10}$ $^{11}$

Кузены Р.Д. (2017). Парадокс Джеффриса – Линдли и критерии открытия в физике высоких энергий. Synthese, 194 (2), 395-432. архивная ссылка
Дориго, т. (2013), демистифицируя критерий пяти сигм, от science20.com 2019-03-07
Розенфельд А.Х. (1968). Есть ли отдаленные мезоны или барионы? Источник: escholarship
Бербидж Г., Робертс М., Шнайдер С., Шарп Н. и Тиффт В. (1990, ноябрь). Панельная дискуссия: Проблемы, связанные с Redshift. В публикации конференции НАСА (том 3098, стр. 462). ссылка на фотокопию на harvard.edu
Франклин А. (2013). Изменяющиеся стандарты: эксперименты по физике элементарных частиц в двадцатом веке. Университет Питтсбург Пресс.
Что означает 5 сигма? from physics.org 2019-03-07
Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Обзор физики элементарных частиц. Физический обзор D-частицы, поля, гравитация и космология, 86 (1), 010001. (раздел 36.2.2. Тесты значимости, стр. 394, ссылка aps.org )
Lyons, L. (2013). Открытие значения 5 сигм. Препринт arXiv arXiv: 1310.1284. архивная ссылка
Лион Л. (2014). Статистические проблемы в поисках новой физики. препринт arXiv ссылка arxiv
Бейкер М. (2015). Более половины психологических исследований не проходят тест на воспроизводимость. Новости природы. от nature.com 2019-03-07
Хортон Р. (2015). Оффлайн: что такое 5 сигма медицины? The Lancet, 385 (9976), 1380. от thelancet.com 2019-03-07

— Секст Эмпирик
источник

4

По причине, совершенно отличной от физической, существуют другие области с гораздо более строгими альфа-значениями, когда они участвуют в проверке гипотез. Генетическая Эпидемиология среди них, особенно когда они используют «GWAS» (Genome-Wide Association Association) для поиска различных генетических маркеров заболевания.

Поскольку исследование GWAS является серьезным упражнением для проверки множественных гипотез, современные методы анализа построены на гораздо более строгих альфа-значениях, чем 0,05. Другие такие методы исследования «отбора кандидатов», которые следуют за исследованиями геномики, вероятно, сделают то же самое.

— фомиты
источник

2

Это только крошечные локальные . GWAS все еще имеет общую ошибку типа I в 5% за утверждение об успехе, которого на самом деле нет.

α

$\alpha$

— Хорст Грюнбуш

3

Уровень настолько высок, чтобы избежать преждевременных объявлений о новостях, которые впоследствии оказываются поддельными. Для более подробного обсуждения этого см.

https://physics.stackexchange.com/questions/8752/standard-deviation-in-particle-physics?rq=1

https://physics.stackexchange.com/questions/31126/how-many-sigma-did-the-discovery-of-the-w-boson-have

— Арнольд Ноймайер
источник