Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом:
«Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом, включая этапы исследования «.
Я хотел бы попросить вашего разъяснения по этому поводу, потому что они, кажется, не имеют никакого значения для меня. Оба определения кажутся идентичными. На самом деле я понял, что это моделирование и обучение на основе моделей, и я не знаю, имеют ли они какое-либо отношение к рассматриваемым.
Как это возможно, что оптимальная политика изучается независимо от действий агента? Не изучена ли политика, когда агент выполняет действия?