Учитывая, что сегодня високосный день, кто-нибудь знает вероятность рождения в високосный день?
Учитывая, что сегодня високосный день, кто-нибудь знает вероятность рождения в високосный день?
Ответы:
Конечно. Смотрите здесь для более подробного объяснения: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .
Но, по сути, автор приходит к выводу: «За 2 тысячелетия существует 485 високосных лет. Таким образом, за 2 тысячелетия насчитывается полных дней. Из этих дней 29 февраля происходит в 485 из них (високосные годы), поэтому вероятность составляет "
Чтобы точно предсказать эту вероятность, используя статистику, было бы полезно знать, где произошло рождение.
На этой странице http://chmullig.com/2012/06/births-by-day-of-year/ имеется график, показывающий подмножество числа рождений в день (умножение 29-го на 4, что неверно и нежелательно на этот вопрос, но он также ссылается на исходные данные и дает приблизительное представление о том, что вы можете ожидать) в Соединенных Штатах. Я предположил бы, что эта кривая не верна для других стран, особенно для других континентов. В частности, южное полушарие и экваториальная область могут демонстрировать существенный вывод из этих результатов - при условии, что климат является определяющим фактором.
Кроме того, существует проблема «выборного рождения» (затронутая авторами http://bmjopen.bmj.com/content/3/8/e002920.full ) - в более бедных регионах земного шара я бы ожидал другого Распределение рождений просто потому, что (не экстренные) кесарево сечение или искусственные роды встречаются реже, чем в развитых странах. Это искажает окончательное распределение рождений.
Используя американские данные, предполагая, что ~ 71 миллион рождений (приблизительное среднее значение * 366) и 46 000 рождений 29 февраля, без учета распределения високосных лет в данных, поскольку точный период не указан, я получаю вероятность около ~ 0,000648. Это немного ниже значения, которое можно было бы ожидать при равномерном распределении рождений, и, следовательно, в соответствии с общим впечатлением от графика.
Я оставлю критерий значимости этой грубой оценки мотивированному читателю. Но, учитывая, что 29-е (хотя и не исправленное - 2000 год вносит в данные смещение ниже среднего) баллы низкие даже для и без того низких февральских стандартов, я предполагаю относительно высокую уверенность в том, что нулевой гипофиз с равным распределением можно отклонить.
Я думаю, что ответ на этот вопрос может быть только эмпирическим. Любой теоретический ответ был бы ошибочным без учета явлений выбора дня рождения, сезонности и т. Д. С этими вещами невозможно теоретически справиться.
Данные о днях рождения трудно найти в США по соображениям конфиденциальности. Там один анонимный набор данных здесь . Это из страховых заявок в США. Отличие от других отчетов, таких как популярная часто цитируемая статья в Нью-Йорк Таймсе , состоит в том, что в ней перечисляется частота рождений по дате, а не просто ранжирование дней в году. Слабым местом, конечно, является смещение выборки, поскольку оно исходит от страховки: незастрахованные люди не включены и т. Д.
Согласно данным, на 29 февраля было 325 рождений из общего числа 481040. По данным Роя Мерфи , выборка охватывает период с 1981 по 1994 год. Она включает 3 високосных года из общего числа 14 лет. Без каких-либо корректировок вероятность будет составлять 0,0675% от рождения 29 февраля между 1981 и 1994 годами.
Вы можете отрегулировать вероятность, учтя частоту високосных лет, которая близка к 1/4 ( не совсем точно ), например, умножив это число на чтобы получить оценку 0,079%. Здесь, условная вероятность о рождении на 29 февраля в високосный год связан с наблюдаемой частотой по частоте високосных лет в образце: где - количество лет в выборке, а - общая частота рождений.
Как правило, вероятность високосных лет составляет , следовательно, долгосрочная средняя вероятность 29 февраля:
Возможно, вас заинтересует условная вероятность рождения 29 февраля, если вы родились в високосный год:
Таким образом, связь между и основана на некоторой паре предположений, например, что вероятность рождения в каком-либо конкретном году одинакова и не изменяется.
Конечно, эта дискуссия была ориентирована на США. Кто знает, каковы закономерности в других странах.
ОБНОВЛЕНИЕ: Мы автоматически предположили, что OP - григорианский календарь. Это становится еще интереснее, если учесть разные календари, такие как лунный календарь Хиджры , где високосные годы происходят каждые 30 лет или около того.
ОБНОВЛЕНИЕ 2:
Что удивительно, так это то, что предполагаемая вероятность приводит к ожидаемому числу дней рождения 29 февраля для этой выборки: . Это ниже, чем 1 января и 25 декабря, что соответствует приведенному выше рейтингу NYT! Они не описывают источник данных, ссылаясь только на них , но они либо одинаковы, либо результаты являются надежными.Amitabh Chandra, Harvard University
Теперь, насколько вероятно, что эти очень специфические дни в григорианском календаре: 1 января, 25 декабря и 29 декабря будут случайными, как самые популярные дни рождения? Я говорю, что это очень маловероятно случайное явление. Следовательно, еще интереснее увидеть, что происходит в других календарях, таких как хиджры.
ОБНОВЛЕНИЕ 3:
Обратите внимание, что оба выше, чем наивные теоретические оценки:
ОБНОВЛЕНИЕ 4:
Бен Миллвуд отметил, что распределение рождений по дням года неравномерно. Можем ли мы проверить это утверждение? Используя мой набор данных, мы можем запустить test для теоретического распределения с нулевой гипотезой о том, что распределение является равномерным. Результатом является отклонение, то есть распределение не кажется равномерным.
Теоретическое распределение построено так. Мы предполагаем, что частота рождений одинакова во всех календарных днях, то есть в 14 лет через дня. Затем мы сворачиваем дни в дни года, а это 366. Очевидно, что встречались только 3 високосных дня и 14 не високосных. Ниже мой код MATLAB и график распространения для сравнения теоретических и эмпирических.
d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs
idL = 60; % index of Feb 29
% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days
fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;
fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))
% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on
% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)
ВЫХОД:
non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000
h =
1
p =
0
Обложка моей любимой книги когда-либо содержит некоторые весьма важные доказательства против предположения о равномерном распределении рождений по датам. В частности, у рождений в США с 1970 года есть несколько тенденций, наложенных друг на друга: длинная, многолетняя тенденция, непериодическая тенденция, тенденции дня недели, тенденции дня года, тенденции праздника (потому что такие процедуры, как кесарево сечение раздел позволяет эффективно планировать дату рождения, а врачи часто не делают этого в праздничные дни). В результате вероятность рождения в случайно выбранный день в году неодинакова, и поскольку коэффициент рождаемости варьируется в зависимости от года, также не все годы одинаково вероятны.
Это также свидетельствует о том, что решение Asksal, хотя и является очень сильным соперником, также является неполным. Небольшое количество високосных дней будет «загрязнена» всеми от эффектов при игре здесь, поэтому оценка Asksal является также захват (совершенно случайно) эффект день-неделю и долгосрочных тенденций , наряду с 29 февраля эффект. Какие эффекты являются и не подходят для включения, неясно определены вашим вопросом.
И этот анализ имеет отношение только к США, демографические тенденции которых могут сильно отличаться от других стран или групп населения. Например, уровень рождаемости в Японии снижался в течение десятилетий. Уровень рождаемости в Китае регулируется государством, что имеет определенные последствия для гендерного состава страны и, следовательно, уровня рождаемости в последующих поколениях.
Аналогичным образом, анализ Гельмана описывает только несколько последних десятилетий, и не обязательно ясно, что это даже эпоха интереса к вашему вопросу.
Для тех, кто в восторге от такого рода вещей, материал в обложке подробно обсуждается в главе о гауссовских процессах.
29 февраля - число, которое встречается каждый год, кратное 4 .
Однако годы, кратные 100, но не относящиеся к 400, не считаются високосными (например, 1900 год не является високосным, а 2000 или 1600 -). Таким образом, в настоящее время это один и тот же шаблон каждые 400 лет.
Итак, давайте посчитаем на интервале [0; 400 [ :
На 400-летний период существует ровно 4 x 25 = 100 лет, кратных 4 . Но мы должны вычесть 3 (годы, кратные 100, но не 400) из 100, и мы получим 100 - 3 = 97 лет.
Теперь мы должны умножить 97 на 366, 97 x 366 = 35502 (количество дней в високосном году в период 400 лет), осталось (365 x (400-97)) = 110 595 (количество дней, которые не т в високосный год в период 400 лет).
Тогда нам просто нужно сложить эти два числа, чтобы узнать общее количество дней за 400 лет: 110 595 + 35502 = 146 097 .
В завершение наша вероятность - это число 29 февраля за 400-летний период, поэтому 97, учитывая, что существует 97 високосных лет, деленных на общее количество дней нашего интервала:
p = 97/146097 ≈ 0,0006639424492
Надеюсь, что это правильно и ясно.
Я полагаю, что здесь смешиваются два вопроса. Один из них: «Какова вероятность того, что какой-либо день будет 29 февраля?». Второй (и тот, который фактически спросил): «Какова вероятность рождения в високосный день?»
Подход простого подсчета дней, кажется, вводит в заблуждение, как указывает Аксакал. Подсчет дней и вычисление частоты 29-го февраля затрагивает вопрос: «Какова вероятность того, что какой-либо день является 29-го февраля?» (Представьте, что вы просыпаетесь после комы, не зная, какой сегодня день. Вероятность того, что он 29 февраля, как указано выше, ).
После ответа Аксакала вероятность может быть основана на эмпирических исследованиях распределения рождений по дням года. Различные наборы данных будут приводить к разным выводам (например, из-за влияния сезонности, долгосрочных тенденций рождаемости, культурных различий). Аксакал указал на исследование (один комментарий: для учета непредставительного количества високосного года в упомянутых данных (т. ) по сравнению с долгосрочной частотой появления високосного года (т. Е. ) вам нужно было бы умножить частоту рождения 29 февраля из выборки на ).
Наконец, существует третье возможное толкование вопроса, которое, я считаю, не было задумано: «Какова вероятность рождения конкретного человека в високосный день?» Ну, для любого, кто уже родился, это легко. Это либо либо . Для тех, кто не родился, но уже забеременел, его также можно оценить с помощью эмпирических исследований продолжительности беременности (см. Обзор в Википедии ). Для тех, кто еще не зачат, см. Выше.
Я заметил, что большинство приведенных выше ответов решают эту проблему путем расчета количества високосных дней в конкретном периоде. Существует более простой способ получить ответ на 100% точно по определению:
Мы используем високосные годы, чтобы скорректировать обычный (365 дней) календарь на средний тропический год (то есть средний солнечный год). Средний тропический год «это время, которое требуется Солнцу, чтобы вернуться в то же положение в круговороте сезонов, которое видно с Земли» (Википедия). Тропический год меняется незначительно, но средний (средний) тропический год - О 365.24667.
Если високосные дни верны, то вероятность того, что случайно выбранный день будет високосным, составляет ((тропический год) - (не високосный год)) / тропический год
Подводя примерное число, которое мы имеем, это (365.24667-365) /365.24667, или 0,24667 / 365.24667, или 675 на миллион (0,0675%).
Это, однако, для случайно выбранного дня. Я полагаю, что это существенно искажено родителями, которые предпочитают не объяснять своим детям: «Ваш фактический день рождения наступает только раз в 4 года».