В настоящее время я ищу обзор алгоритмов обучения подкреплению и, возможно, их классификацию. Но рядом с Sarsa и Q-Learning + Deep Q-Learning я не могу найти ни одного популярного алгоритма.
Википедия дает мне обзор различных общих методов обучения с подкреплением, но нет ссылок на различные алгоритмы, реализующие эти методы.
Но, возможно, я путаю общие подходы и алгоритмы, и в этой области нет реальной классификации, как в других областях машинного обучения. Может кто-нибудь дать мне краткое введение или только справку, где я мог бы начать знакомство с различными подходами, различиями между ними и примерами алгоритмов, которые реализуют этот подход?