Вопросы с тегом «reinforcement-learning»

Для вопросов, связанных с обучением, контролируемых внешним положительным подкреплением или отрицательным сигналом обратной связи или и тем, и другим, когда изучение и использование того, что уже изучено, происходит одновременно.

6
В чем разница между безмодельным и основанным на моделях обучением с подкреплением?
В чем разница между безмодельным и основанным на моделях обучением с подкреплением? Мне кажется, что любой учащийся без модели, обучающийся методом проб и ошибок, может быть переименован в основанный на модели. В таком случае, когда ученики без моделей будут уместны?

1
Какова связь между методами Q-обучения и политическими градиентами?
Насколько я понимаю, Q-learning и градиенты политики (PG) - это два основных подхода, используемых для решения проблем RL. В то время как Q-Learning стремится предсказать вознаграждение за определенное действие, предпринятое в определенном состоянии, политические градиенты непосредственно предсказывают само действие. Тем не менее, оба подхода кажутся мне идентичными, то есть прогнозирование ...

4
Как обрабатывать недопустимые движения в обучении подкреплению?
Я хочу создать ИИ, который может играть пять в ряд / гомоку. Как я уже упоминал в названии, я хочу использовать для этого обучение с подкреплением. Я использую метод градиента политики , а именно REINFORCE, с базовым уровнем. Для приближения значения и функции политики я использую нейронную сеть . Имеет ...

2
Как определить состояния в обучении подкрепления?
Я изучаю подкрепление обучения и варианты его. Я начинаю понимать, как работают алгоритмы и как они применяются к MDP. Что я не понимаю, так это процесс определения состояний MDP. В большинстве примеров и учебных пособий они представляют собой нечто простое, например квадрат в сетке или что-то подобное. Для более сложных ...

2
Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?
Например, заголовок этой статьи гласит: «Пример эффективного критика актера с повторением опыта». Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?

3
Есть ли какие-либо приложения для обучения подкреплению, кроме игр?
Есть ли способ научить усиленному обучению в приложениях, отличных от игр? Единственные примеры, которые я могу найти в Интернете, - это игровые агенты. Я понимаю, что VNC контролирует вход в игры через сеть подкрепления. Можно ли настроить это, скажем, с помощью программного обеспечения САПР?

3
Как реализовать ограниченное пространство действий в обучении подкреплению?
Я кодирую модель обучения подкреплению с агентом PPO благодаря очень хорошей библиотеке Tensorforce , построенной поверх Tensorflow. Первая версия была очень простой, и теперь я погружаюсь в более сложную среду, где не все действия доступны на каждом этапе. Допустим, есть 5 действий, и их доступность зависит от внутреннего состояния (которое ...

1
Почему вы не видите выпадающих слоев на примерах обучения подкреплению?
Я смотрел на обучение подкрепления и, в частности, пытался создавать свои собственные среды для использования с OpenAI Gym AI. Я использую агентов из проекта stable_baselines для тестирования с ним. Одна вещь, которую я заметил практически во всех примерах RL, заключается в том, что ни в одной из сетей, кажется, никогда ...

1
Когда я должен использовать Reinforcement Learning против PID Control?
При разработке решений таких проблем, как «Лунный корабль» в OpenAIGym , обучение с подкреплением является заманчивым средством предоставления агенту адекватного контроля действий для успешного приземления. Но в каких случаях алгоритмы системы управления, такие как ПИД-регуляторы , могли бы выполнять только адекватную работу, если не лучше, чем обучение с подкреплением? Такие ...

1
Почему DQN требует двух разных сетей?
Я проходил эту реализацию DQN и вижу, что в строке 124 и 125 были инициализированы две разные сети Q. Из моего понимания я думаю, что одна сеть предсказывает соответствующее действие, а вторая сеть предсказывает целевые значения Q для нахождения ошибки Беллмана. Почему мы не можем просто создать единую сеть, которая ...

2
Почему Q-обучение не сходится при использовании приближения функций?
Алгоритм табличного Q-обучения гарантированно найдет оптимальную QQQ функцию, Q∗Q∗Q^* , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)&lt;∞∑tαt2(s,a)&lt;∞\sum_{t} \alpha_t^2(s, a) < \infty где αt(s,a)αt(s,a)\alpha_t(s, a) означает скорость обучения, используемую при обновлении значения QQQ связанного с состоянием sss и действием aaa ...

3
Почему ставка дисконта в алгоритме REINFORCE появляется дважды?
Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.). На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта появляется 2 раза, один раз в ...

1
Как оставаться современным исследователем в сообществе ML / RL?
Как студент, который хочет работать над машинным обучением, я хотел бы знать, как можно начать учебу и как следовать ей, чтобы оставаться в курсе. Например, я готов работать над проблемами RL и MAB, но есть огромная литература по этим темам. Кроме того, эти темы изучаются исследователями из различных сообществ, таких ...

1
Как можно применять градиенты политики в случае нескольких непрерывных действий?
Оптимизация политики в доверенных регионах (TRPO) и Proximal Policy Optimization (PPO) - это два передовых алгоритма градиента политики. При использовании одного непрерывного действия обычно вы используете некоторое распределение вероятностей (например, гауссово) для функции потерь. Черновая версия: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, где AAA является преимуществом вознаграждений, P(a1)P(a1)P(a_1) характеризуется μμ\mu и σ2σ2\sigma^2 ...

3
Всегда ли оптимальная политика стохастична, если среда также стохастична?
Является ли оптимальная политика всегда стохастической (то есть, карта от состояний к распределению вероятности по действиям), если среда также стохастическая? Интуитивно понятно, что если среда является детерминированной (то есть, если агент находится в состоянии sss и выполняет действие aaa , то следующее состояние s′s′s' всегда одинаково, независимо от того, какой ...

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.