Я хочу создать ИИ, который может играть пять в ряд / гомоку. Как я уже упоминал в названии, я хочу использовать для этого обучение с подкреплением.
Я использую метод градиента политики , а именно REINFORCE, с базовым уровнем. Для приближения значения и функции политики я использую нейронную сеть . Имеет сверточные и полностью связанные слои. Все слои, кроме выходных, являются общими. Слой вывода политики имеет выходной блок (размер платы) и softmax на них. Так что это стохастик. Но что, если сеть выдает очень высокую вероятность неверного перемещения? Неверный ход - это когда агент хочет проверить квадрат, в котором есть один «Х» или «О». Я думаю, что это может застрять в этом состоянии игры.
Не могли бы вы порекомендовать какое-либо решение для этой проблемы?
Я предполагаю использовать метод актер-критик . За недействительный ход мы должны дать отрицательное вознаграждение и передать ход противнику.