Вопросы с тегом «reinforcement-learning»

1
Значение дисконтного фактора при обучении подкреплению
После прочтения достижений Google Deepmind в играх Atari , я пытаюсь понять q-learning и q-network, но я немного запутался. Путаница возникает в концепции дисконтного фактора. Краткое резюме того, что я понимаю. Глубокая сверточная нейронная сеть используется для оценки значения оптимального ожидаемого значения действия. Сеть должна минимизировать функцию потерь где равно …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.