Искусственный интеллект reinforcement-learning

6

В чем разница между безмодельным и основанным на моделях обучением с подкреплением?

В чем разница между безмодельным и основанным на моделях обучением с подкреплением? Мне кажется, что любой учащийся без модели, обучающийся методом проб и ошибок, может быть переименован в основанный на модели. В таком случае, когда ученики без моделей будут уместны?

29 reinforcement-learning comparison model-based model-free

1

Какова связь между методами Q-обучения и политическими градиентами?

Насколько я понимаю, Q-learning и градиенты политики (PG) - это два основных подхода, используемых для решения проблем RL. В то время как Q-Learning стремится предсказать вознаграждение за определенное действие, предпринятое в определенном состоянии, политические градиенты непосредственно предсказывают само действие. Тем не менее, оба подхода кажутся мне идентичными, то есть прогнозирование …

21 reinforcement-learning q-learning policy-gradients comparison

4

Как обрабатывать недопустимые движения в обучении подкреплению?

Я хочу создать ИИ, который может играть пять в ряд / гомоку. Как я уже упоминал в названии, я хочу использовать для этого обучение с подкреплением. Я использую метод градиента политики , а именно REINFORCE, с базовым уровнем. Для приближения значения и функции политики я использую нейронную сеть . Имеет …

20 machine-learning reinforcement-learning game-ai combinatorial-games

2

Как определить состояния в обучении подкрепления?

Я изучаю подкрепление обучения и варианты его. Я начинаю понимать, как работают алгоритмы и как они применяются к MDP. Что я не понимаю, так это процесс определения состояний MDP. В большинстве примеров и учебных пособий они представляют собой нечто простое, например квадрат в сетке или что-то подобное. Для более сложных …

14 reinforcement-learning

2

Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?

Например, заголовок этой статьи гласит: «Пример эффективного критика актера с повторением опыта». Что такое эффективность выборки и как можно использовать выборку важности для ее достижения?

14 reinforcement-learning statistical-ai importance-sampling

3

Есть ли какие-либо приложения для обучения подкреплению, кроме игр?

Есть ли способ научить усиленному обучению в приложениях, отличных от игр? Единственные примеры, которые я могу найти в Интернете, - это игровые агенты. Я понимаю, что VNC контролирует вход в игры через сеть подкрепления. Можно ли настроить это, скажем, с помощью программного обеспечения САПР?

13 reinforcement-learning applications

3

Как реализовать ограниченное пространство действий в обучении подкреплению?

Я кодирую модель обучения подкреплению с агентом PPO благодаря очень хорошей библиотеке Tensorforce , построенной поверх Tensorflow. Первая версия была очень простой, и теперь я погружаюсь в более сложную среду, где не все действия доступны на каждом этапе. Допустим, есть 5 действий, и их доступность зависит от внутреннего состояния (которое …

13 deep-learning reinforcement-learning

1

Почему вы не видите выпадающих слоев на примерах обучения подкреплению?

Я смотрел на обучение подкрепления и, в частности, пытался создавать свои собственные среды для использования с OpenAI Gym AI. Я использую агентов из проекта stable_baselines для тестирования с ним. Одна вещь, которую я заметил практически во всех примерах RL, заключается в том, что ни в одной из сетей, кажется, никогда …

13 machine-learning reinforcement-learning overfitting dropout

1

Когда я должен использовать Reinforcement Learning против PID Control?

При разработке решений таких проблем, как «Лунный корабль» в OpenAIGym , обучение с подкреплением является заманчивым средством предоставления агенту адекватного контроля действий для успешного приземления. Но в каких случаях алгоритмы системы управления, такие как ПИД-регуляторы , могли бы выполнять только адекватную работу, если не лучше, чем обучение с подкреплением? Такие …

12 reinforcement-learning ai-design control-theory

1

Почему DQN требует двух разных сетей?

Я проходил эту реализацию DQN и вижу, что в строке 124 и 125 были инициализированы две разные сети Q. Из моего понимания я думаю, что одна сеть предсказывает соответствующее действие, а вторая сеть предсказывает целевые значения Q для нахождения ошибки Беллмана. Почему мы не можем просто создать единую сеть, которая …

12 reinforcement-learning q-learning dqn

2

Почему Q-обучение не сходится при использовании приближения функций?

Алгоритм табличного Q-обучения гарантированно найдет оптимальную QQQ функцию, Q∗Q∗Q^* , при условии, что выполнены следующие условия (условия Роббинса-Монро ) относительно скорости обучения ∑tαt(s,a)=∞∑tαt(s,a)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,a)<∞\sum_{t} \alpha_t^2(s, a) < \infty где αt(s,a)αt(s,a)\alpha_t(s, a) означает скорость обучения, используемую при обновлении значения QQQ связанного с состоянием sss и действием aaa …

12 reinforcement-learning q-learning deep-rl proofs function-approximation

3

Почему ставка дисконта в алгоритме REINFORCE появляется дважды?

Я читал книгу « Усиленное обучение: введение» Ричарда С. Саттона и Эндрю Г. Барто (полный проект, 5 ноября 2017 г.). На странице 271 представлен псевдокод для эпизодического метода градиента политики Монте-Карло. Глядя на этот псевдокод, я не могу понять, почему кажется, что ставка дисконта появляется 2 раза, один раз в …

11 reinforcement-learning algorithm rl-an-introduction reinforce

1

Как оставаться современным исследователем в сообществе ML / RL?

Как студент, который хочет работать над машинным обучением, я хотел бы знать, как можно начать учебу и как следовать ей, чтобы оставаться в курсе. Например, я готов работать над проблемами RL и MAB, но есть огромная литература по этим темам. Кроме того, эти темы изучаются исследователями из различных сообществ, таких …

11 machine-learning reinforcement-learning research markov-decision-process

1

Как можно применять градиенты политики в случае нескольких непрерывных действий?

Оптимизация политики в доверенных регионах (TRPO) и Proximal Policy Optimization (PPO) - это два передовых алгоритма градиента политики. При использовании одного непрерывного действия обычно вы используете некоторое распределение вероятностей (например, гауссово) для функции потерь. Черновая версия: L(θ)=log(P(a1))A,L(θ)=log⁡(P(a1))A,L(\theta) = \log(P(a_1)) A, где AAA является преимуществом вознаграждений, P(a1)P(a1)P(a_1) характеризуется μμ\mu и σ2σ2\sigma^2 …

11 deep-learning reinforcement-learning trpo

3

Всегда ли оптимальная политика стохастична, если среда также стохастична?

Является ли оптимальная политика всегда стохастической (то есть, карта от состояний к распределению вероятности по действиям), если среда также стохастическая? Интуитивно понятно, что если среда является детерминированной (то есть, если агент находится в состоянии sss и выполняет действие aaa , то следующее состояние s′s′s' всегда одинаково, независимо от того, какой …

10 reinforcement-learning stochastic-policy deterministic-policy policy environment

Вопросы с тегом «reinforcement-learning»