2
Почему Q-обучение не сходится при использовании приближения функций?
Алгоритм табличного Q-обучения гарантированно найдет оптимальную QQQ функцию, Q∗Q∗Q^* , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty где αt(s,a)αt(s,a)\alpha_t(s, a) означает скорость обучения, используемую при обновлении значения QQQ связанного с состоянием sss и действием aaa …