Насколько вероятно, что я произошла от определенного человека, родившегося в 1300 году?


26

Другими словами, исходя из следующего, что такое p?

Чтобы сделать это математической проблемой, а не антропологией или общественными науками, и упростить задачу, предположим, что пары выбираются с равной вероятностью среди населения, за исключением того, что братья и сестры никогда не спариваются, а пары всегда выбираются из одного и того же поколение.

  • n1 - начальная популяция
  • g - число поколений.
  • c - среднее количество детей на пару. (Если необходимо для ответа, предположим, что у каждой пары одинаковое количество детей.)
  • z - процент людей, у которых нет детей, и которые не считаются частью пары.
  • n2 - население в конечном поколении. (Следуетуказать либоn2 либоz , а (я думаю) можно рассчитать и другое.)
  • p - вероятность того, что кто-то в последнем поколении будет потомком определенного человека в начальном поколении.

Эти переменные могут быть изменены, опущены или добавлены, конечно. Для простоты я предполагаю, что c и Z не меняются со временем. Я понимаю, что это будет очень приблизительная оценка, но это отправная точка.

Часть 2 (предложение для дальнейших исследований):

Как вы можете считать, что пары не выбраны с глобально равномерной вероятностью? В действительности, партнеры чаще имеют одинаковую географическую область, социально-экономическое, расовое и религиозное происхождение. Без исследования фактических вероятностей для этого, как переменные для этих факторов вступают в игру? Насколько это важно?


2
это домашний вопрос? Иначе, каков контекст?
Дэвид Лебауэр

1
@ Джон: Спасибо за ваше редактирование. Я считаю, что преобладающее согласие (на этом и других сайтах) заключается в том, что мы не редактируем вопросы, просто добавляя homeworkтег. Для всех участников лучше позволить ОП сделать это. Вас может заинтересовать этот мета-поток, если вы еще не видели его.
кардинал

Мне просто интересно. Я не студент, и это не чья-то домашняя работа. Я просто пошутил о дополнительном кредите, хотя я вижу, как это будет означать домашнюю работу.
xpda

3
Для того, чтобы получить первоначальный смысл ответов, рассмотрит дробь населения, которое не связан с данным предком по происхождению. Первоначально f = ( n - 1 ) / n для населения n . С случайным перемешиванием, е в квадрате после каждого поколения. Скажем, в начальной популяции с n = 10 8 это означает, что f почти наверняка 0 после 32 поколений (около 600 - 800 лет). ff=(n1)/nnfn=108f032600800
whuber

1
Я полагаю, что есть некоторые академические исследования о вероятности исчезновения уникальной фамилии. Хотя это и не идентично поставленной проблеме, это может дать некоторую интересную информацию (но, к сожалению, я не могу вспомнить, откуда она). Как ни странно, я считаю, что эти исследования привели к некоторому пониманию математики распространения инфекционных заболеваний ...
Майкл МакГоуэн,

Ответы:


13

Поскольку этот вопрос получает ответы, которые варьируются от астрономически небольших до почти 100%, я хотел бы предложить имитацию, которая послужит эталоном и источником вдохновения для улучшенных решений.

Я называю эти «пламенные планы». Каждый документирует дисперсию генетического материала в популяции, когда он воспроизводится в отдельных поколениях. Графики представляют собой массивы тонких вертикальных сегментов, изображающих людей. Каждый ряд представляет поколение, с начальным наверху. Потомки каждого поколения находятся в ряду сразу под ним.

В начале, только один человек в популяции размера отмечен и изображен красным. (Это трудно увидеть, но они всегда отображаются справа от верхнего ряда.) Их прямые потомки также нарисованы красным; они будут отображаться в совершенно случайных позициях. Другие потомки изображены белыми. Поскольку размеры популяции могут варьироваться от одного поколения к следующему, серая рамка справа используется для заполнения пустого пространства.n

Вот массив из 20 независимых результатов моделирования.

Пламенные участки

Красный генетический материал в конечном итоге вымер в девяти из этих симуляций, оставшиеся в живых оставшиеся 11 (55%). (В одном сценарии, внизу слева, похоже, что вся популяция в конечном итоге вымерла.) Однако, где бы ни были выжившие, почти вся популяция содержала красный генетический материал. Это свидетельствует о том, что вероятность случайного отбора индивида из последнего поколения, содержащего ген красного, составляет около 50%.

Симуляция работает путем случайного определения выживаемости и средней рождаемости в начале каждого поколения. Выживание происходит из бета-версии (6,2): в среднем 75%. Это число отражает как смертность до взрослой жизни, так и число людей, не имеющих детей. Коэффициент рождаемости взят из гамма-распределения (2,8, 1), поэтому он в среднем составляет 2,8. Результатом является жестокая история о недостаточной репродуктивной способности, чтобы компенсировать в целом высокую смертность. Она представляет собой крайне пессимистичную модель в худшем случае, но (как я уже говорил в комментариях) способность населения расти не является существенной. Все, что имеет значение в каждом поколении, это доля красного среди населения.

Для моделирования воспроизводства, текущая популяция сокращается до выживших путем отбора простой случайной выборки нужного размера. Эти выжившие случайным образом спарены (любой странный выживший, оставшийся после спаривания, не может размножаться). Каждая пара производит количество детей, взятых из распределения Пуассона, чье среднее значение - коэффициент рождаемости поколения. Если один из родителей содержит красный маркер, все дети наследуют его: это моделирует идею прямого спуска через любого из родителей.

Этот пример начинается с населения 512 и запускает моделирование в течение 11 поколений (12 строк, включая начало). Вариации этого моделирования, начиная с всего лишь и целых 2 14 = 16 , 384 человек, с использованием разных показателей выживаемости и рождаемости, демонстрируют схожие характеристики: к концу 2 ( n ) поколений log (девять) в этом случае) вероятность того, что все красные погасли, составляет около 1/3, но если нет, то большинство населения - красные. В течение еще двух или трех поколений, почти все население будет красным и останется красным (иначе население погибнет совсем).n=8214=16,384log2(n)

Между прочим, выживание в 75% или менее в поколении не фантастично. В конце 1347 г. крысы, зараженные бубонной чумой, впервые отправились из Азии в Европу; в течение следующих трех лет в результате погибли от 10 до 50% европейского населения. Чума повторялась почти один раз в течение сотен лет после этого (но обычно не с такой же крайней смертностью).


Код

Симуляция была создана с помощью Mathematica 8:

randomPairs[s_List] := Partition[s[[Ordering[RandomReal[{0, 1}, Length[s]]]]], 2];

next[s_List, survive_, nKids_] := Flatten[ConstantArray[Max[#], 
   RandomVariate[PoissonDistribution[nKids]]] & /@ 
   randomPairs[RandomSample[s, Ceiling[survive Length[s]]]]] 

Partition[Table[
   With[{n = 6}, ArrayPlot[NestList[next[#, RandomVariate[BetaDistribution[6, 2]], 
        RandomVariate[GammaDistribution[3.2, 1]]] &, 
        Join[ConstantArray[0, 2^n - 1], ConstantArray[1, 1]], n + 2], 
     AspectRatio -> 2^(n/3)/(2 n), 
     ColorRules -> {1 -> RGBColor[.6, .1, .1]},  
     Background -> RGBColor[.9, .9, .9]]
    ], {i, 1, 20}
   ], 4] // TableForm

1
Я думаю, что подобное моделирование может быть лучшим подходом. Это намного проще и веселее (для меня), чем математика, и это должно упростить введение факторов, ограничивающих выбор партнера. Есть ли у вас какие-либо рекомендации, предостережения или другие советы, прежде чем я углублюсь в это?
xpda

3
@xpda Математические решения помогут понять, что важно, а что нет. Например, они покажут, что вам не обязательно моделировать огромное население. Они также укажут роль, которую играет изменчивость, с которой сложнее работать аналитически и которая выходит на первый план в симуляции.
whuber

1
@whuber Вы запускали симуляцию в Mathematica? Не могли бы вы опубликовать код?
принято нормальным

1
@Max Код сейчас работает. Прошу прощения за отсутствие комментариев. При запуске каждого из randomPairsи nextна тестовых данных, их функции должны стать очевидными. Обратите внимание на использование NestListитерации nextдля создания нескольких поколений.
whuber

3

Что происходит, когда вы пытаетесь считать предков?

n2n2528

Это правильный пример, но в этом расчете что-то не так, потому что население Земли в 1300 году не смешивалось равномерно, и мы игнорируем смешанные браки в вашем исконном «дереве», то есть мы дважды подсчитываем некоторых предков.

228


2
Это очень важно, учитывая, что большая часть населения тогда была довольно изолирована друг от друга, поэтому было гораздо меньше возможностей избежать смешанных браков.
DCL

2
Итак, давайте предположим, что ОП была от английского происхождения и около 1300 года, население Англии составляло более миллиона человек. (Скажем до великого голода). Как это изменит ваш анализ?
Дассоуки

228268

228/34

2

Чем дальше назад, тем больше вероятность, что вы связаны с человеком, который успешно передал свои гены, которые жили в то время. Из 1/4 миллиарда ваших предков, которые жили в 1300 году, многие из них будут появляться в вашем семейном древе сотни (если не тысячи, миллионы) раз. Генетический дрейф и количество раз, когда мы непосредственно связаны с кем-то, скорее всего, более соответствуют различиям в нашем генетическом коде, чем то, кем были наши предки.


0

Вероятность = 1-z, каждый потомок в этой задаче связан с вышеупомянутыми предками. Какой бы ни была начальная скорость размножения (1-z), это ваша вероятность быть потомком кого-то в начальной популяции. Только неопределенная вероятность - это каковы шансы быть живыми в конечной популяции.

Я согласен с ответом Эрада, хотя теперь я думаю, что он отвечает на вопрос, который не задавался, а именно, какова вероятность того, что вы живы, учитывая определенные известные репродуктивные и популяционные ограничения для ваших предков.


N1ZZг

Кроме того, чтобы уточнить, вопрос состоит в том, чтобы найти вероятность того, что конкретное лицо в последнем поколении происходит от конкретного человека в начальном поколении.
xpda

1
AAAA

Cogito @Wipa Descartes ' ergo sum настоятельно рекомендует , чтобы вероятность того, что я жив, учитывая любые ограничения на моих предков, составляет 100% :-)
whuber

@ whuber, ты прав. Я считаю, что мы говорим об одной и той же проблеме. Я хотел уточнить, что я не ищу вероятность того, что у кого-то в первом поколении будет жив потомок в последнем поколении. Я боялся, что именно здесь Wipa придумала (1-z) для ответа.
xpda

0

п>(1-Z)×1N1(1-Z)2знак равно2N1

Ответ объяснил:
учитывая, что конкретный человек сегодня, несомненно, что они являются потомком как минимум 2 человек в 1300 году.

При выборе конкретного человека в 1300 году существует (1-z) вероятность того, что человек никогда не воспроизводится, а другой термин относится к числу «родительских пар» и вероятности того, что человек будет связан с этой парой (1 / количество пар).

п>2N1


NК+1знак равноNК(1-Z)×с2знак равноN1(1-Z)КсК2К







п>2/360,000,000знак равно5,56×10-9

Спасибо за чтение, Эрад


сZ

Исходя из первоначального вопроса, приведенного выше: c = среднее количество детей на пару, а z = процент людей, у которых нет детей
Эрад,

2
1/Nзнак равно1/360M10-9?
mpiktas

3
Ответ, приведенный здесь, относится к каждому члену первоначального населения, независимо от того, кем он был. Суммирование по всем членам дает верхнюю оценку вероятности того, что мы произошли сегодня от какого-то человека в 1300 году360,000,000/(2,66×10249)«1, что, очевидно, неправильно (если инопланетные клоны не были введены по пути ...).
whuber

1
@Erad В своем комментарии вы, кажется, предполагаете, что все сегодняшнее население происходит из крошечной части мира в 1300 году. Это просто неправдоподобно. Тем не менее, предположим, ради аргумента - и для изучения крайнего случая - что сегодня все, как известно, произошли исключительно от одной пары, «Адама» и «Евы», живой в 1300 году. Тогда вероятность спуска либо 100%, если Адам или Ева являются «конкретным человеком» вопроса, или же 0%. Этот шанс, в среднем по населению в 1300 году, по-прежнему составляет около10-8гораздо выше, чем вы рассчитываете.
whuber

0

Это очень интересный вопрос, так как он просит нас математически решить фрактал. Такие, как знаменитая игра в жизнь .

Процент населения, с которым связано каждое поколение, будет расти на каждой итерации, начиная с п1знак равно2N1 и на пределе поколение подойдет ИтКпКзнак равно(1-Z),

Если мы обозначим пК как вероятность кого-то в поколении Кбыть связанным с начальной популяцией. А для простоты давайте ослабим правило братьев и сестер (можно добавить позже). Затем:

п1знак равно2N1

Так как у каждого человека в новом поколении есть ровно 2 предка в начальной популяции.

п2знак равнореLaTяvеs×2N2+NоN,реLaTяvеs×4N2
В этом случае родственники могут быть рассчитаны как:
реLaTяvеsзнак равно(с2)×Nс(N2)знак равнос-1N-1
Или, другими словами, количество комбинаций братьев и сестер, умноженное на количество семейства братьев и сестер, деленное на общее число комбинаций спаривания.
п3знак равнояммеdяaTе,реLaTяvеs×4N3+соUsяNs×6N3+NоN,реLaTяvеs×8N3

С каждым поколением, вероятность быть связанным с кем-то в начальной популяции, несомненно, будет расти, но в меньшем темпе. Это связано с тем, что вероятность нарисовать «родственников», происходящих из того же или похожего дерева, будет расти.

Давайте использовать этническую принадлежность в качестве примера. Допустим, мы знаем, что кто-то на 100% кавказец. В 28 поколении он, скорее всего, связан со значительной частью населения Кавказа в 1300 году (как показано на @whuber моделирование). Допустим, он женился на ком-то, кто на 100% другой национальности. Их потомство будет связано примерно с удвоенным числом людей, с которыми они связаны, с 1300 года.

Другая интересная мысль заключается в том, что, учитывая, что человеческая раса (homosapien) началась с ~ 600 человек в Африке, тогда мы, скорее всего, являемся генетической перестановкой всех из них, кто успешно спарился.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.