Краткая версия заключается в том, что бета-распределение можно понимать как представление распределения вероятностей, то есть оно представляет все возможные значения вероятности, когда мы не знаем, что это за вероятность. Вот мое любимое интуитивное объяснение этого:
Любой, кто следит за бейсболом, знаком со средними значениями ватина - просто количество раз, когда игрок получает базовый удар, деленное на количество раз, когда он повышается в бите (так что это просто процент между 0
и 1
). .266
в целом считается средним уровнем ватина, в то время .300
как считается отличным.
Представьте, что у нас есть бейсболист, и мы хотим предсказать, каков будет его средний уровень за весь сезон. Вы могли бы сказать, что мы можем пока просто использовать его среднее значение, но это будет очень плохой показатель в начале сезона! Если игрок один раз подходит к бите и получает сингл, его среднее значение кратковременно 1.000
, в то время как если он выбивает, его среднее значение равно 0.000
. Не намного лучше, если вы подойдете к бите пять или шесть раз - вы можете получить счастливую полосу и получить среднее значение 1.000
или неудачную полосу и получить среднее значение 0
, ни одно из которых не является хорошим показателем того, как ты будешь бить в этом сезоне
Почему ваш средний уровень в первых нескольких попаданиях не является хорошим показателем вашего возможного среднего? Когда первая ат-бит игрока является аутом, почему никто не предсказывает, что он никогда не получит хит за весь сезон? Потому что мы идем с предыдущими ожиданиями. Мы знаем, что в истории большинство средних показателей за сезон колебались между чем-то вроде .215
и .360
с некоторыми редкими исключениями с обеих сторон. Мы знаем, что если игрок получает несколько аутов подряд с самого начала, это может указывать на то, что он окажется чуть хуже среднего, но мы знаем, что он, вероятно, не отклонится от этого диапазона.
Учитывая нашу среднюю проблему, которая может быть представлена в виде биномиального распределения (серии успехов и неудач), лучший способ представить эти априорные ожидания (то, что мы в статистике называем априорными ) - это бета-распределение - оно говорит: прежде чем мы увидим, как игрок совершил свой первый удар, мы примерно ожидаем, что его средний уровень будет. Область распространения бета-версии (0, 1)
, как и вероятность, так что мы уже знаем, что мы на правильном пути, но пригодность бета-версии для этой задачи выходит далеко за рамки этого.
Мы ожидаем, что средний уровень игрока в течение сезона будет наиболее вероятным .27
, но может варьироваться от разумного .21
до .35
. Это можно представить с помощью бета-распределения с параметрами и β = 219 :α = 81β= 219
curve(dbeta(x, 81, 219))
Я придумал эти параметры по двум причинам:
- Среднее значение αα + β= 8181+219=.270
- Как вы можете видеть на графике, это распределение почти полностью находится в пределах
(.2, .35)
- разумного диапазона для среднего значения.
Вы спросили, что представляет ось х на графике плотности бета-распределения - здесь она представляет его среднее значение. Таким образом, обратите внимание, что в этом случае не только ось Y является вероятностью (или, точнее, плотностью вероятности), но также является осью X (в конце концов, среднее значение ватита - это просто вероятность попадания)! Бета-распределение представляет собой распределение вероятностей вероятностей .
Но вот почему бета-версия является такой подходящей. Представьте, что игрок получает один удар. Его рекорд за сезон сейчас 1 hit; 1 at bat
. Затем мы должны обновить наши вероятности - мы хотим немного сдвинуть всю эту кривую, чтобы отразить нашу новую информацию. Хотя математика для доказательства этого немного сложна ( она показана здесь ), результат очень прост . Новый бета-дистрибутив будет:
Beta(α0+hits,β0+misses)
α0β0αβБета (81+1,219)
curve(dbeta(x, 82, 219))
Обратите внимание, что он почти не изменился - это изменение действительно невидимо невооруженным глазом! (Это потому, что один удар ничего не значит).
Бета (81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Обратите внимание, что кривая теперь и тоньше, и смещена вправо (более высокий средний уровень), чем раньше - мы лучше понимаем, каков средний уровень игрока.
αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200= .3338181+219=.270
Таким образом, бета-распределение лучше всего подходит для представления вероятностного распределения вероятностей - случай, когда мы не знаем заранее, что такое вероятность, но у нас есть некоторые разумные предположения.