К успехам в испытаниях Бернулли или эксперименте с Джорджем Лукасом


23

Я сейчас читаю «Путь пьяницы» и не могу понять из этого ни одной истории.

Здесь это идет:

Представьте, что Джордж Лукас снимает новый фильм «Звездные войны» и на одном тестовом рынке решает провести сумасшедший эксперимент. Он выпускает идентичный фильм под двумя названиями: «Звездные войны: Эпизод A» и «Звездные войны: Эпизод B». Каждый фильм имеет свою собственную маркетинговую кампанию и график распространения, с соответствующими идентичными деталями, за исключением того, что трейлеры и рекламные объявления для одного фильма говорят «Эпизод A», а для другого - «Эпизод B».

Теперь мы делаем конкурс из этого. Какой фильм будет более популярным? Скажем, мы смотрим на первые 20000 зрителей и записываем фильм, который они выбирают для просмотра (игнорируя тех преданных фанатов, которые пойдут на оба, а затем настаивают на том, что между ними есть тонкие, но значимые различия). Поскольку фильмы и их маркетинговые кампании идентичны, мы можем математически смоделировать игру следующим образом: представьте, что выстраиваете всех зрителей подряд и подбрасываете монеты каждому зрителю по очереди. Если монета приземляется, он или она видит Эпизод A; если монета приземляется, это Эпизод B. Поскольку у монеты есть равные шансы на успех в любом случае, вы можете подумать, что в этой экспериментальной кассовой войне каждый фильм должен лидировать примерно в половине случаев.

Но математика случайности говорит об обратном: наиболее вероятное число изменений в отведении равно 0, и в 88 раз более вероятно, что один из двух фильмов пройдет через всех 20 000 клиентов, чем, скажем, то, что лидерство постоянно качается "

Я, вероятно, ошибочно приписываю это простой проблеме испытаний Бернулли, и должен сказать, что я не понимаю, почему лидер не качается в среднем! Кто-нибудь может объяснить?

Ответы:


22

Вот некоторый код R для имитации эксперимента Джорджа Лукаса:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Запустив его, мы получим фотографии, подобные этим:

введите описание изображения здесь

где разница в проданных билетах между A и B находится на оси Y.

Далее, мы проводим таких моделируемых экспериментов Джорджа Лукаса. Для каждого эксперимента мы рассчитываем долю потраченного времени 0 , т. Е. Пропорцию выстроенных в очередь зрителей, для которых количество билетов, проданных А, больше или равно количеству билетов, проданных Б. Интуитивно, вы бы сказать , что эта доля должна быть примерно 1 / 2 . Вот гистограмма результатов:10,00001/2

введите описание изображения здесь

Доля составляет в среднем в том смысле , что ожидаемое значение равно 1 / 2 , но 1 / 2 является маловероятным значение по сравнению со значениями , близкими к 0 или 1 . Для большинства экспериментов различия в большинстве случаев либо положительные, либо отрицательные!1/21/21/201

Красная кривая является функцией плотности распределения арксинуса, также известный как распределенияБета(1/2,1/2) . На изображении выше показана теорема, известная как первый закон Арсине для случайных блужданий , которая гласит, что по мере того, как число шагов простого симметричного случайного блуждания приближается к бесконечности, распределение доли времени, проведенного выше стремится к арксинусное распределение. Стандартная ссылка на этот результат - раздел III.4 « Введение в теорию вероятностей и ее приложения», том 1 Уильяма Феллера.0


R код для симуляции исследования

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

Благодарность! Я установил R и хотел бы повторить все ваши шаги - как я могу запустить 10000 симуляций и вычислить долю затраченного времени?
andreister

@andreister: я отредактировал свой ответ, добавив код для симуляции в конце. Я надеюсь, что вы найдете это полезным!
MånsT

Спасибо, это очень полезно! Чтобы убедиться в том, что я все понял, я сделал pastebin.com/mtRdsPkP на основе вашего кода - можете ли вы щелкнуть?
andreister

cumsumsumcumsumяя

(продолжение) Это информация, которая нас интересует, так как мы хотим видеть, качается ли лидер. sumбудет просто суммировать все 1 и -1, что даст вам окончательный результат после того, как все 20 000 зрителей были учтены (то есть последний элемент cumsumвектора).
MånsT

11

1/2tt=13/4t=3t

11

20,000

Если вы хотите вычислить некоторые вероятности, вы должны посчитать что-то похожее на решетчатые блуждания, которые не пересекают диагональ. Существует отличный комбинаторный метод, который применяется к случайным блужданиям (и к броуновскому движению), которые не пересекают такую ​​линию, называется принципом отражения или методом отражения . Это один из методов определения каталонских чисел . Вот два других приложения:

A10,200-9,800(20,0009,800)(10,200,9,800)ВВВ(9,799,10,201)(10,200,9,800)В(20,0009,800)(20,00010,201)=(20,0009,800)(20,0009,799)=(20,0009,800)40110,201.B(10,200,9,800),96%

A(20,00010,000)220,000/10,000π,A1100π150π1/89.56


Благодарность! Мне нужно понять обозначения, прежде чем я понимаю ваш ответ, хотя! Что значит «в конечном итоге впереди 10 200–9 800» и т. Д., Откуда вы берете цифры? Как вы видите 20K это режим?
andreister

Ценности 10,200-9,80011,000-9,00010,001-9,999.20,00000п000

0

«в 88 раз более вероятно, что один из двух фильмов пройдет через все 20 000 клиентов, чем, скажем, постоянные качели»

Говоря простым языком: один из фильмов выходит на первое место. Это должно произойти, так как первый покупатель должен пойти в А или Б. Этот фильм с такой же вероятностью сохранит лидерство, как и потеряет его.

Звучит в 88 раз чаще , ну, вряд ли, пока вы не вспомните, что совершенный качели очень маловероятны. Диаграмма в ответе MansT , показывающая это графически, удивительна, не так ли?

В сторону: Лично я думаю, что это будет более чем в 88 раз - из-за <buzzword-alert>вирусного маркетинга </buzzword-alert>. Каждый человек спросит других, что они видели, и с большей вероятностью посетит тот же фильм. Они даже сделают это подсознательно: люди с большей вероятностью присоединятся к длинной очереди, чтобы что-то посмотреть. То есть, как только случайность среди первых нескольких клиентов создала лидера, человеческая психология сохранит его как лидера :-).

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.