Я рассматриваю программирование линии следования робота с использованием алгоритмов обучения подкрепления. Вопрос, над которым я размышляю, состоит в том, как я могу получить алгоритм обучения навигации по любому произвольному пути?
Перейдя по Sutton & Барто книгу для обучения с подкреплением, я решить проблему тренировки с участием ипподрома , где в машине агенте научился не идти с трассой и регулировать его скорость. Однако эта проблема с упражнениями заставила агента научиться ориентироваться на дорожке, на которой он тренировался.
Находится ли в области обучения подкреплению, чтобы робот управлял произвольными путями? Есть ли агент совершенно иметь карту гоночной трассы или пути? Какие параметры я могу использовать для своего пространства состояний?