Похоже, что сеть политики определяет распределение вероятностей по возможным ходам когда в игровом состоянии . Когда программа ищет игровое дерево, она делает это случайным образом, и определяет, как она выполняет этот поиск. Надежда состоит в том, что эта функция будет «вести» программу к хорошим ходам, которые, вероятно, сделает сильный игрок. Это имеет смысл, потому что при поиске в дереве игры ветви, начинающиеся с ошибок, менее значимы при оценке текущей позиции на доске против интеллектуального противника.p(a∣s)asp
Когда они говорят, что политика развертывания (я полагаю, они заимствовали термин «развертывание» у нардов) является линейной функцией softmax, они ссылаются на обобщение сигмоидальной функции, используемой в логистической регрессии. Эта функция принимает форму
eβTix∑kj=1eβTjx
где - это вектор, который является функцией текущей позиции платы (согласно статье линейный softmax используется только на последнем шаге сети политик), а - вектор весов, которые вместе определяют вероятность того, что политика сеть выберет действие .xβiai