Вопросы с тегом «q-learning»

1
Какова связь между методами Q-обучения и политическими градиентами?
Насколько я понимаю, Q-learning и градиенты политики (PG) - это два основных подхода, используемых для решения проблем RL. В то время как Q-Learning стремится предсказать вознаграждение за определенное действие, предпринятое в определенном состоянии, политические градиенты непосредственно предсказывают само действие. Тем не менее, оба подхода кажутся мне идентичными, то есть прогнозирование …

1
Почему DQN требует двух разных сетей?
Я проходил эту реализацию DQN и вижу, что в строке 124 и 125 были инициализированы две разные сети Q. Из моего понимания я думаю, что одна сеть предсказывает соответствующее действие, а вторая сеть предсказывает целевые значения Q для нахождения ошибки Беллмана. Почему мы не можем просто создать единую сеть, которая …

2
Почему Q-обучение не сходится при использовании приближения функций?
Алгоритм табличного Q-обучения гарантированно найдет оптимальную QQQ функцию, Q∗Q∗Q^* , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty где αt(s,a)αt(s,a)\alpha_t(s, a) означает скорость обучения, используемую при обновлении значения QQQ связанного с состоянием sss и действием aaa …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.