Вопросы с тегом «trpo»

1
Как можно применять градиенты политики в случае нескольких непрерывных действий?
Оптимизация политики в доверенных регионах (TRPO) и Proximal Policy Optimization (PPO) - это два передовых алгоритма градиента политики. При использовании одного непрерывного действия обычно вы используете некоторое распределение вероятностей (например, гауссово) для функции потерь. Черновая версия: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, где AAA является преимуществом вознаграждений, P(a1)P(a1)P(a_1) характеризуется μμ\mu и σ2σ2\sigma^2 …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.