1
Почему DQN требует двух разных сетей?
Я проходил эту реализацию DQN и вижу, что в строке 124 и 125 были инициализированы две разные сети Q. Из моего понимания я думаю, что одна сеть предсказывает соответствующее действие, а вторая сеть предсказывает целевые значения Q для нахождения ошибки Беллмана. Почему мы не можем просто создать единую сеть, которая …