Кто первым использовал / изобрел p-значения?


30

Я пытаюсь написать серию постов в блоге о p-значениях, и я подумал, что было бы интересно вернуться к тому, с чего все началось, - похоже, это статья Пирсона 1900 года. Если вы знакомы с этим документом, вы помните, что он охватывает тестирование на пригодность.

Пирсон немного болтает со своим языком, когда речь идет о p-значениях. Он неоднократно использует «шансы» при описании того, как интерпретировать его значение p. Например, на стр.168, говоря о результатах повторных бросков по 12 кубиков, он говорит: « ... что приводит нас к P = .0000016, или шансы равны 62,499 к 1 против такой системы отклонения на случайной основе отбор. С такими шансами было бы разумно сделать вывод, что игральные кости демонстрируют уклон к более высоким точкам ».

В этой статье он ссылается на более раннюю работу, включая книгу Мерримана о наименьших квадратах 1891 года.

Но Пирсон действительно выкладывает исчисление для p-значений (с точки зрения критерия соответствия по критерию хи-квадрат).

Был ли Пирсон первым человеком, который задумал p-значения? Когда я делаю поиск по p-значениям, упоминается Фишер - и его работа была в 1920-х годах.

Отредактировано: и спасибо за упоминание Лапласа - он, кажется, не рассматривал нулевую гипотезу (кажется, что Пирсон делает это неявно, хотя он никогда не использовал этот термин в своей статье 1900 года). Пирсон рассмотрел правильность проверки соответствия: если предположить, что подсчеты получены из непредвзятого процесса, какова вероятность того, что наблюдаемые подсчеты (и подсчета более отклоняются) возникают из предполагаемого распределения?

Его трактовка вероятностей / шансов (он преобразует вероятности в шансы) предполагает, что он работает с неявной идеей нулевой гипотезы. Важно отметить, что он также упоминает, что вероятность, возникающая из значения x ^ 2, показывает шансы «против системы отклонений как невероятные или более невероятные, чем этот» - язык, который мы сейчас узнаем, - в отношении его вычисленных значений p.

Арбутнот зашел так далеко?

Не стесняйтесь размещать ваши комментарии в качестве ответов. Было бы неплохо увидеть обсуждение.


7
Эта статья предполагает , что она была использована Лапласа, который бы установил нижнюю границу: en.wikipedia.org/wiki/...

9
Можно утверждать, что Арбутнот (1710) в «Аргументе о божественном провидении», взятом из постоянной закономерности, наблюдаемой в рождениях обоих полов, возможно, мог бы сосчитаться. Он использует модель монеты («крест и стопка») и сначала вычисляет вероятность получения точно такого же количества голов, сколько хвостов, прежде чем указать, что «шансы будут использованы в некоторых Условиях, следующих за средним, и будут опираться на один сторона или другая. Но очень маловероятно (если бы просто управлял шансом), что они никогда не дойдут до конечностей »; мы можем видеть, что он приближается к понятию р-значения там.
Glen_b

4
Любопытно, что Дэвид в своем списке jstor.org/stable/2685564?seq=1#page_scan_tab_contents предполагает, что термин P-value впервые был использован в 1943 году Демингом в его книге «Статистическая корректировка данных». Я знаю, что вы придерживаетесь концепции, а не термина, но мне было интересно увидеть, когда термин наконец появился.
mdewey

2
Кто изобрел, может быть трудно выяснить. Но кто виноват в текущем использовании p-значений, конечно, Фишер.
Карлос Синелли

1
Мы определяем значение p как «вероятность получения результата в определенном диапазоне (часто некоторого значения или более экстремального для вычисляемой статистики, такой как использованная Пирсоном в 1900 году), учитывая, что определенная гипотеза верна»?
Секст Эмпирик

Ответы:


19

Джейкоб Бернулли (~ 1700) - Джон Арбутнот (1710) - Николай Бернулли (1710-е) - Авраам де Моивр (1718)

Случай с Arbuthnot 1, см. Объяснение в примечании ниже , также может быть прочитан в « Доктрине случайности» (1718) де Мойвра со страницы 251-254, которая расширяет эту линию мышления.

De Moivre делает два шага / продвижения:

  1. Нормальное приближение распределения Бернулли, которое помогает легко вычислить вероятности для результатов, находящихся в пределах или вне определенного диапазона. В разделе перед примером о случае Арбутно де Моивр пишет о своем приближении (теперь называемом гауссовым / нормальным распределением) для распределения Бернулли. Это приближение позволяет легко вычислить p-значение (что Арбутнот не мог сделать).

  2. Обобщение аргумента Арбутнота. Он упоминает, что «этот метод рассуждения также может быть полезен в некоторых других очень интересных запросах». (что может дать частичную заслугу де Моивру за то, что он увидел общую применимость аргумента)


  • По словам де Мойвра, Джейкоб Бернулли писал об этой проблеме в своем « Арсе Конъектанди» . Де Моивр называет это по-английски: «Назначение границ, в пределах которых при повторении экспериментов вероятность события может приближаться бесконечно к заданной вероятности», но оригинальный текст Бернуилли на латыни. Я не знаю достаточно латыни, чтобы понять, писал ли Бернулли о понятии, подобном p-значению, или, скорее, о законе больших чисел. Интересно отметить, что Бернуилли утверждает, что имел эти идеи в течение 20 лет (а также работа 1713 была опубликована после его смерти 1705 года, так что, похоже, она предшествует дате 1710 года, упомянутой в комментариях @Glen_b для Arbuthnot).

  • Одним из источников вдохновения для де Мойвра был Николаус Бернуилли, который в 1712/1713 годах произвел расчеты для вероятности того, что число рожденных мальчиков будет не менее 7037 и не более 7363, когда 14000 - это общее число рожденных детей и вероятность для мальчика 18/35.

    (Числа для этой проблемы были основаны на 80-летней статистике по Лондону. Он писал об этом в письмах Пьеру Раймонду де Монтморту, опубликованных во втором издании (1713 г.) «Монтмортского эссе« Анализ опасности » .)

    Расчеты, которые я не совсем выполнил, с вероятностью 43,58 к 1. (Используя компьютер, суммирующий вероятность всех членов бинома от 7037 до 7363, я получаю 175: 1, поэтому, возможно, я неверно истолковал его работу / расчет. )


1: Джон Арбутнот писал об этом случае в «Аргументе о божественном провидении», взятом из постоянной закономерности, наблюдаемой при рождении обоих полов (1710).

128214836000000000000000000000

Arbuthnot: тогда шанс А будет близок к бесконечно малому количеству, по крайней мере, меньше, чем любая назначаемая дробь. Отсюда следует, что правит искусство, а не случайность.


Автор StackExchangeStrike


Возможно, история обратной вероятности Эндрю Дейла может помочь больше. (В поисках перевода Бернулли я обнаружил, что он перевел соответствующий отрывок, упомянутый де Мойвром). В первые дни эта обратная вероятность, теперь считавшаяся более байесовской техникой, могла быть довольно распространенным инструментом для интерпретации и использования.
Секст Эмпирик

3

У меня есть три поддерживающие ссылки / аргументы, которые поддерживают дату ~ 1600-1650 для формально разработанной статистики и намного раньше просто для использования вероятностей.

Если вы принимаете гипотезу в качестве основы, предшествующей вероятности, то онлайн-словарь этимологии предлагает следующее:

« гипотеза (сущ.)

1590-е годы, «конкретное утверждение»; 1650-е годы - «суждение, принятое и принятое как должное, использованное в качестве предпосылки», из гипотезы Средней Франции и непосредственно из гипотезы поздней латыни, из греческой гипотезы «основание, основание, основание», следовательно, в расширенном использовании «основание аргумента», предположение, «буквально» размещение под, «от гипо-« под »(см. гипо-) + тезис« размещение, суждение »(от упрощенной формы корня PIE * dhe-« установить, положить »). Термин в логике; более узкий научный смысл - с 1640-х годов ".

Викисловарь предлагает:

«Записано с 1596 года из средне-французской гипотезы, из позднелатинской гипотезы, из древнегреческого ὑπόθεσις (hupóthesis,« основание, основание аргумента, предположение »), буквально« помещается под », само по себе из ὑποτίθημι (hupotíthēmi,« я установил » прежде, предложите »), от ὑπό (hupó,« внизу ») + τίθημι (títhēmi,« Я положил, место »).

Гипотеза существительного (множественное число гипотез)

(науки). Используется свободно, предварительная гипотеза, объясняющая наблюдение, явление или научную проблему, которая может быть проверена путем дальнейшего наблюдения, исследования и / или эксперимента. В качестве научного термина искусства см. Прилагаемую цитату. Сравните с теорией и приведенной там цитатой. цитаты ▲

  • 2005, Рональд Х. Пайн, http://www.csicop.org/specialarticles/show/intelligent_design_or_no_model_creationism , 15 октября 2005 г .:

    В школе слишком многих из нас учили, что ученый, пытаясь что-то выяснить, сначала выдвинет «гипотезу» (предположение или догадку - не обязательно даже «образованное» предположение). ... Но в науке слово «гипотеза» следует использовать исключительно для обоснованного, разумного, основанного на знаниях объяснения того, почему какое-то явление существует или происходит. Гипотеза может быть еще не проверена; может быть уже проверен; возможно, был сфальсифицирован; возможно, еще не был сфальсифицирован, хотя и проверен; или, может быть, бесчисленное количество раз проверялось бесчисленными способами без фальсификации; и это может стать общепринятым в научном сообществе. Понимание слова «гипотеза», как оно используется в науке, требует понимания принципов, лежащих в основе Оккама. Мысль Бритвы и Карла Поппера о «фальсифицируемости», в том числе о том, что любая респектабельная научная гипотеза, в принципе, должна «быть способной» быть доказанной неверной (если на самом деле она должна быть просто ошибочной), но ничто не может быть доказано, чтобы быть правдой. Один из аспектов правильного понимания слова «гипотеза», используемого в науке, заключается в том, что только исчезающе небольшой процент гипотез может потенциально стать теорией ».

По вероятности и статистике Википедия предлагает:

« Сбор данных

отбор проб

Когда полные данные переписи не могут быть собраны, статистики собирают данные выборки путем разработки конкретных планов экспериментов и выборок обследований. Сама статистика также предоставляет инструменты для прогнозирования и прогнозирования с помощью статистических моделей. Идея сделать выводы на основе выборочных данных возникла примерно в середине 1600-х годов в связи с оценкой численности населения и разработкой предшественников страхования жизни . (Ссылка: Wolfram, Stephen (2002). Новый вид науки. Wolfram Media, Inc., стр. 1082. ISBN 1-57955-008-8).

Чтобы использовать выборку в качестве руководства для всей совокупности, важно, чтобы она действительно представляла всю совокупность. Репрезентативная выборка гарантирует, что выводы и выводы могут безопасно распространяться от выборки к совокупности в целом. Основная проблема заключается в определении степени того, что выбранная выборка действительно является репрезентативной. Статистика предлагает методы для оценки и исправления любых отклонений в выборке и процедурах сбора данных. Существуют также методы планирования эксперимента для экспериментов, которые могут уменьшить эти проблемы в начале исследования, усиливая его способность распознавать правду о населении.

Теория выборки является частью математической дисциплины теории вероятностей. Вероятность используется в математической статистике для изучения распределений выборки статистики выборки и, в более общем смысле, свойств статистических процедур. Использование любого статистического метода допустимо, когда рассматриваемая система или совокупность удовлетворяет предположениям метода. Разница в точке зрения между классической теорией вероятностей и теорией выборки, примерно, заключается в том, что теория вероятностей начинается с заданных параметров общей совокупности, чтобы вывести вероятности, которые относятся к выборкам. Статистический вывод, однако, движется в противоположном направлении - индуктивно выводя из выборок параметры большей или полной совокупности .

Из "Wolfram, Stephen (2002). Новый вид науки. Wolfram Media, Inc., стр. 1082.":

« Статистический анализ

• история. Некоторые расчеты шансов для азартных игр уже были сделаны в древности. Начиная с 1200-х годов мистики и математики получали все более сложные результаты, основанные на комбинаторном перечислении вероятностей , а систематически правильные методы разрабатывались в середине 1600-х и начале 1700-х годов., Идея сделать выводы из выборочных данных возникла в середине 1600-х годов в связи с оценкой населения и разработкой предшественников страхования жизни. Метод усреднения для исправления случайных ошибок наблюдения начал использоваться, в первую очередь, в астрономии, в середине 1700-х годов, в то время как аппроксимация методом наименьших квадратов и понятие вероятностных распределений были установлены около 1800 года. Вероятностные модели, основанные на случайные различия между людьми стали использоваться в биологии в середине 1800-х годов, а многие классические методы, используемые в настоящее время для статистического анализа, были разработаны в конце 1800-х и начале 1900-х годов в контексте сельскохозяйственных исследований. В физике фундаментально вероятностные модели были центральными для введения статистической механики в конце 1800-х годов и квантовой механики в начале 1900-х годов.

Другие источники:

«Этот отчет, в основном нематематический, определяет значение p, суммирует историческое происхождение подхода p value к проверке гипотез, описывает различные применения p≤0.05 в контексте клинических исследований и обсуждает появление p≤ 5 × 10–8 и другие значения в качестве порогов для геномного статистического анализа ».

Раздел «Историческое происхождение» гласит:

[1]

[1]. Арбутнотт Дж. Аргументация в пользу божественного провидения, взятая из постоянной регулярности, наблюдаемой при рождении обоих полов. Фил Транс 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011, опубликовано 1 января 1710 г.

«Р-значения давно связывают медицину и статистику. Джон Арбутнот и Даниэль Бернулли оба были врачами, помимо того, что были математиками, и их анализ соотношения полов при рождении (Арбутнот) и наклонение орбит планет (Бернулли) дают два Наиболее известные ранние примеры тестов значимости . Если их повсеместность в медицинских журналах является стандартом, по которому их оценивают, значения P также чрезвычайно популярны среди медицинских работников. С другой стороны, они подвержены Регулярная критика со стороны статистиков и только неохотно защищались Например, дюжину лет назад выдающиеся биостатисты, покойный Мартин Гарднер и Дуг Альтман145789вместе с другими коллегами организовал успешную кампанию, чтобы убедить Британский медицинский журнал уделять меньше внимания значениям Р и больше доверительным интервалам. Журнал «Эпидемиология» вообще их запретил. В последнее время атаки даже появились в популярной прессе . Таким образом, значения P, по-видимому, являются подходящим предметом для журнала эпидемиологии и биостатистики. Это эссе представляет собой личный взгляд на то, что, если что-нибудь, можно сказать, чтобы защитить их.10,11

Я предложу ограниченную защиту только P-значений. ... ".

Ссылки

1 Hald A. A history of probability and statistics and their appli- cations before 1750. New York: Wiley, 1990.
2 Shoesmith E, Arbuthnot, J. In: Johnson, NL, Kotz, S, editors. Leading personalities in statistical sciences. New York: Wiley, 1997:7–10. 
3 Bernoulli, D. Sur le probleme propose pour la seconde fois par l’Acadamie Royale des Sciences de Paris. In: Speiser D,
editor. Die Werke von Daniel Bernoulli, Band 3, Basle:
Birkhauser Verlag, 1987:303–26. 
4 Arbuthnot J. An argument for divine providence taken from
the constant regularity observ’d in the births of both sexes. Phil Trans R Soc 1710;27:186–90. 
5 Freeman P. The role of P-values in analysing trial results. Statist Med 1993;12:1443 –52. 
6 Anscombe FJ. The summarizing of clinical experiments by
significance levels. Statist Med 1990;9:703 –8.
7 Royall R. The effect of sample size on the meaning of signifi- cance tests. Am Stat 1986;40:313 –5.
8 Senn SJ. Discussion of Freeman’s paper. Statist Med
1993;12:1453 –8.
9 Gardner M, Altman D. Statistics with confidence. Br Med J
1989.
10 Matthews R. The great health hoax. Sunday Telegraph 13
September, 1998. 
11 Matthews R. Flukes and flaws. Prospect 20–24, November 1998.

@Martijn Weterings : «Был ли Пирсон в 1900 году возрождением, или эта концепция (часто использовавшаяся) появилась раньше? Как Джейкоб Бернулли думал о своей« золотой теореме »в частом смысле или в байесовском смысле (что говорит и утверждает Ars Conjectandi? там больше источников)?

Американская статистическая ассоциация имеет веб-страницу по истории статистики, на которой, наряду с этой информацией, имеется плакат (частично воспроизведенный ниже) под названием «Хронология статистики».

  • Н.э. 2: Доказательства переписи, завершенной во время династии Хань, сохранились.

  • 1500-е годы: Джироламо Кардано рассчитывает вероятности различных бросков костей.

  • 1600-е годы: Эдмунд Халли связывает уровень смертности с возрастом и разрабатывает таблицы смертности.

  • 1700-е годы: Томас Джефферсон руководит первой переписью в США.

  • 1839: образована Американская статистическая ассоциация.

  • 1894: термин «стандартное отклонение» введен Карлом Пирсоном.

  • 1935: Р.А. Фишер публикует «Дизайн экспериментов».

Частичная временная шкала статистики

В разделе «История» веб-страницы Википедии « Закон больших чисел » это объясняет:

«Итальянский математик Джероламо Кардано (1501–1576)Заявлено без доказательств того, что точность эмпирической статистики имеет тенденцию улучшаться с увеличением числа испытаний. Это было тогда оформлено как закон больших чисел. Специальная форма LLN (для двоичной случайной величины) была впервые доказана Якобом Бернулли. Ему потребовалось более 20 лет, чтобы разработать достаточно строгое математическое доказательство, которое было опубликовано в его «Ars Conjectandi» («Искусство предположения») в 1713 году. Он назвал это «золотой теоремой», но она стала широко известна как «теорема Бернулли». Это не следует путать с принципом Бернулли, названным в честь племянника Джейкоба Бернулли Даниэля Бернулли. В 1837 году С.Д. Пуассон далее описал его под названием «la loi des grands nombres» («Закон больших чисел»). После этого он был известен под обоими именами, но "

После того, как Бернулли и Пуассон опубликовали свои труды, другие математики также внесли свой вклад в уточнение закона, включая Чебышева, Маркова, Бореля, Кантелли, Колмогорова и Хинчина ».


Вопрос: «Был ли Пирсон первым, кто задумал р-значения?»

Нет, наверное нет.

В « Заявлении ASA о p-значениях: контекст, процесс и цель » (09 июня 2016 г.) Wasserstein and Lazar, doi: 10.1080 / 00031305.2016.1154108, есть официальное заявление об определении p-значения (которое не является сомнение не согласовано всеми дисциплинами, использующими или отвергающими p-значения), которое гласит:

" . Что такое p-значение?

Неформально, p-значение - это вероятность согласно определенной статистической модели, что статистическая сводка данных (например, среднее значение выборки между двумя сравниваемыми группами) будет равной или более экстремальной, чем ее наблюдаемое значение.

3. Принципы

...

6. Само по себе значение р не является хорошим показателем в отношении модели или гипотезы.

Исследователи должны признать, что значение p без контекста или других доказательств предоставляет ограниченную информацию. Например, p-значение около 0,05, взятое само по себе, предлагает лишь слабые доказательства против нулевой гипотезы. Аналогичным образом, относительно большое значение р не подразумевает доказательств в пользу нулевой гипотезы; многие другие гипотезы могут быть в равной степени или более соответствовать наблюдаемым данным. По этим причинам анализ данных не должен заканчиваться вычислением p-значения, когда другие подходы являются подходящими и осуществимыми ».

Отказ от нулевой гипотезы, вероятно, произошел задолго до Пирсона.

Страница Википедии о ранних примерах тестирования нулевой гипотезы :

Ранний выбор нулевой гипотезы

Пол Миль утверждал, что эпистемологическая важность выбора нулевой гипотезы осталась в значительной степени непризнанной. Когда нулевая гипотеза предсказывается теорией, более точный эксперимент будет более серьезным испытанием основной теории. Когда нулевой гипотезой по умолчанию является «без разницы» или «без эффекта», более точный эксперимент является менее серьезным испытанием теории, которая мотивировала проведение эксперимента. Поэтому изучение истоков последней практики может быть полезным:

1778: Пьер Лаплас сравнивает рождаемость мальчиков и девочек в нескольких европейских городах. Он заявляет: «Естественно сделать вывод, что эти возможности почти одинаковы». Таким образом, нулевая гипотеза Лапласа о том, что рождаемость мальчиков и девочек должна быть одинаковой, учитывая «общепринятую мудрость».

1900: Карл Пирсон разрабатывает критерий хи-квадрат, чтобы определить, «будет ли данная форма частотной кривой эффективно описывать образцы, взятые из данной популяции». Таким образом, нулевая гипотеза состоит в том, что популяция описывается некоторым распределением, предсказанным теорией. В качестве примера он использует числа пять и шесть в данных броска костей Уэлдона.

1904: Карл Пирсон разрабатывает концепцию «непредвиденных обстоятельств», чтобы определить, являются ли результаты независимыми от данного категориального фактора. Здесь нулевая гипотеза по умолчанию состоит в том, что две вещи не связаны (например, образование рубцов и смертность от оспы). Нулевая гипотеза в этом случае больше не предсказывается теорией или общепринятым мнением, но вместо этого является принципом безразличия, которое приводит Фишера и других к отказу от использования «обратных вероятностей».

Несмотря на то, что одному человеку приписывают отказ от нулевой гипотезы, я не думаю, что было бы разумно называть его « обнаружением скептицизма, основанного на слабом математическом положении».


Я смотрел на работу с Даниэлем Бернулли (второе издание 1808 , но сама работа с 1734) «RECHERCHES PHYSYQUES ET астрономических данных , сюр - ле - problème ПРЕДЛАГАЮТ налить ла Seconde FOIS номинальной l'Académie Royale наук дез - де - Париж: Quelle Est - ла приводить в порядок планы планет Орбиты и планетарии с точки зрения экваториальной эрудиции, в том числе орбиты и орбиты . ch / zut / wihibe / content / titleinfo / 13426461
Sextus

Здесь упоминается нечто вроде вероятности того, что наклон всех шести планет происходит в одном и том же из 17 секторов, что составляет . Это вычисление вероятности, но не столько р-значения. 1:175
Секст Эмпирик
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.