Здесь есть хороший обзорный документ .
π
Эти методы включают в себя популярный алгоритм REINFORCE, который является алгоритмом градиентов политики. TRPO и GAE являются похожими алгоритмами градиентов политики.
Существует множество других вариантов градиентов политики, и их можно сочетать с Q-learning в среде актера-критика. Алгоритм A3C - асинхронное преимущество актер-критик - является одним из таких алгоритмов актер-критик и является очень сильной базой в обучении подкреплению.
π
В дополнение к Q-learning и политическим градиентам, которые оба применяются в моделях без модели (ни один из алгоритмов не поддерживает модель мира), существуют также методы на основе моделей, которые действительно оценивают состояние мира. Эти модели ценны, потому что они могут быть намного более эффективными для выборки.
Алгоритмы, основанные на моделях, не являются исключительными с политическими градиентами или Q-Learning. Общий подход состоит в том, чтобы выполнить оценку состояния / изучить динамическую модель, а затем разработать политику на основе предполагаемого состояния.
Что касается классификации, то одна разбивка будет
- Q или V функция обучения
- Методы, основанные на политике
- Модель основана
Методы, основанные на политике, могут быть далее подразделены на
- Политические градиенты
- Актер Критик
- Поиск политики