Искусственный интеллект dqn

Почему DQN требует двух разных сетей?

Я проходил эту реализацию DQN и вижу, что в строке 124 и 125 были инициализированы две разные сети Q. Из моего понимания я думаю, что одна сеть предсказывает соответствующее действие, а вторая сеть предсказывает целевые значения Q для нахождения ошибки Беллмана. Почему мы не можем просто создать единую сеть, которая …

12 reinforcement-learning q-learning dqn

Вопросы с тегом «dqn»