Вопросы с тегом «q-learning»

4
Почему Q-Learning использует эпсилон-жадный во время тестирования?
В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между этими двумя вариантами является случайным и …

2
Почему буква Q была выбрана в Q-learning?
Почему буква Q была выбрана во имя Q-learning? Большинство букв выбраны в качестве аббревиатуры, например, ππ\pi обозначает политику, а vvv обозначает значение. Но я не думаю, что Q - это аббревиатура любого слова.

1
В чем разница между эпизодом и эпохой в изучении глубокого Q?
Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха. Является …

1
Обзор алгоритмов обучения по усилению
В настоящее время я ищу обзор алгоритмов обучения подкреплению и, возможно, их классификацию. Но рядом с Sarsa и Q-Learning + Deep Q-Learning я не могу найти ни одного популярного алгоритма. Википедия дает мне обзор различных общих методов обучения с подкреплением, но нет ссылок на различные алгоритмы, реализующие эти методы. Но, …

2
Усиленное обучение в нестационарной среде [закрыто]
Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 11 дней назад . В1: Существуют ли распространенные или общепринятые методы работы с нестационарной средой …

4
Как мне интерпретировать кривую выживания модели риска Кокса?
Как вы интерпретируете кривую выживания из модели пропорционального риска Кокса? В этом игрушечном примере предположим, что у нас есть модель пропорционального риска Кокса для ageпеременной в kidneyданных, и сгенерируем кривую выживания. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Например, в момент , какое утверждение верно? или оба не …

1
Насколько эффективно Q-learning с нейронными сетями, когда на одно действие приходится одна единица вывода?
Справочная информация: я использую приближение Q-значения нейронной сети в моей задаче обучения подкрепления. Подход точно такой же, как описанный в этом вопросе , однако сам вопрос другой. В этом подходе количество выходов - это количество действий, которые мы можем предпринять. Иными словами, алгоритм следующий: выполните действие A, изучите награду, попросите …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.