Статистика и большие данные q-learning

4

Почему Q-Learning использует эпсилон-жадный во время тестирования?

В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между этими двумя вариантами является случайным и …

18 machine-learning reinforcement-learning q-learning deep-rl

2

Почему буква Q была выбрана в Q-learning?

Почему буква Q была выбрана во имя Q-learning? Большинство букв выбраны в качестве аббревиатуры, например, ππ\pi обозначает политику, а vvv обозначает значение. Но я не думаю, что Q - это аббревиатура любого слова.

17 terminology reinforcement-learning history q-learning

1

В чем разница между эпизодом и эпохой в изучении глубокого Q?

Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха. Является …

14 neural-networks terminology reinforcement-learning q-learning

1

Обзор алгоритмов обучения по усилению

В настоящее время я ищу обзор алгоритмов обучения подкреплению и, возможно, их классификацию. Но рядом с Sarsa и Q-Learning + Deep Q-Learning я не могу найти ни одного популярного алгоритма. Википедия дает мне обзор различных общих методов обучения с подкреплением, но нет ссылок на различные алгоритмы, реализующие эти методы. Но, …

9 reinforcement-learning q-learning

2

Усиленное обучение в нестационарной среде [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 11 дней назад . В1: Существуют ли распространенные или общепринятые методы работы с нестационарной средой …

9 markov-process reinforcement-learning stationarity q-learning

4

Как мне интерпретировать кривую выживания модели риска Кокса?

Как вы интерпретируете кривую выживания из модели пропорционального риска Кокса? В этом игрушечном примере предположим, что у нас есть модель пропорционального риска Кокса для ageпеременной в kidneyданных, и сгенерируем кривую выживания. library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() Например, в момент , какое утверждение верно? или оба не …

9 r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

1

Насколько эффективно Q-learning с нейронными сетями, когда на одно действие приходится одна единица вывода?

Справочная информация: я использую приближение Q-значения нейронной сети в моей задаче обучения подкрепления. Подход точно такой же, как описанный в этом вопросе , однако сам вопрос другой. В этом подходе количество выходов - это количество действий, которые мы можем предпринять. Иными словами, алгоритм следующий: выполните действие A, изучите награду, попросите …

9 machine-learning neural-networks reinforcement-learning q-learning

Вопросы с тегом «q-learning»