В документах DeepMind AlphaGo Zero и AlphaZero они описывают добавление шума Дирихле к предыдущим вероятностям действий от корневого узла (состояния платы) в Поиске дерева Монте-Карло:
Дополнительное исследование достигается путем добавления шума Дирихле к предшествующим вероятностям в корневом узле , в частности, , где и ; этот шум гарантирует, что все ходы могут быть опробованы, но поиск может по-прежнему отменять неудачные ходы.
(AlphaGo Zero)
А также:
Шум Дирихле был добавлен к предыдущим вероятностям в корневом узле; это было масштабировано обратно пропорционально приблизительному количеству законных ходов в типичной позиции, к значению для шахмат, сёги и го соответственно.
(AlphaZero)
Две вещи, которые я не понимаю:
P(s, a)
является мерным вектором. Является ли сокращением для распределения Дирихле с параметрами, каждый со значением ?Я встречал Дирихле только как сопряженный предшественник многочленного распределения. Почему это было выбрано здесь?
Для контекста P(s, a)
это только один компонент вычисления PUCT (полиномиальное верхнее доверительное дерево, вариант верхних доверительных границ) для данного состояния / действия. Он масштабируется по константе и метрике того, сколько раз данное действие было выбрано среди его братьев и сестер во время MCTS, и добавляется к оценочному значению действия Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
,- .