4
Почему Q-Learning использует эпсилон-жадный во время тестирования?
В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между этими двумя вариантами является случайным и …