Вопросы с тегом «reinforcement-learning»

Набор динамических стратегий, с помощью которых алгоритм может изучать структуру среды в сети, адаптивно предпринимая действия, связанные с различными вознаграждениями, чтобы максимизировать заработанные вознаграждения.

3
Почему всегда есть хотя бы одна политика, которая лучше или равна всем другим политикам?
Усиление обучения: введение. Второе издание, в процессе ., Ричард С. Саттон и Эндрю Дж. Барто (с) 2012, с. 67-68. Решение задачи обучения с подкреплением означает, грубо говоря, поиск политики, которая в конечном итоге приносит много пользы. Для конечных MDP мы можем точно определить оптимальную политику следующим образом. Функции значения определяют …

2
Вопросы о Q-Learning с использованием нейронных сетей
Я внедрил Q-Learning, как описано в http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Для того, чтобы ок. Q (S, A) Я использую структуру нейронной сети, как показано ниже, Активация сигмовидной кишки Входы, количество входов + 1 для нейронов действия (все входы масштабируются 0-1) Выходы, один выход. Значение Q- N количество M скрытых слоев. Метод исследования случайный …

1
ГАМ против проигрыша против сплайнов
Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

1
В чем разница между эпизодом и эпохой в изучении глубокого Q?
Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха. Является …

1
Почему обучение глубокому подкреплению нестабильно?
В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между наблюдениями. Пожалуйста, кто-нибудь может объяснить, что это значит? Является ли это формой переоснащения, …

1
Оптимальный алгоритм решения n-вооруженных бандитских задач?
Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.εε\epsilon Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на …

2
Почему для воспроизведения опыта требуется алгоритм вне политики?
В документе, представляющем DQN « Игра Atari с глубоким обучением подкреплению », упоминалось: Обратите внимание, что при обучении с помощью повторного опыта необходимо учиться вне политики (поскольку наши текущие параметры отличаются от тех, которые используются для генерации образца), что мотивирует выбор Q-обучения. Я не совсем понял, что это значит. Что …

2
Перевод проблемы машинного обучения в регрессионную структуру
Предположим, у меня есть панель объясняющих переменных , для i = 1 . , , N , t = 1 . , , Т , а также вектор двоичных результатов зависимых переменных У я Т . Таким образом, Y наблюдается только в последний момент времени T, а не в любое …

1
Как вписать веса в Q-значения с приближением линейной функции
В обучении с подкреплением линейное приближение функции часто используется, когда присутствуют большие пространства состояний. (Когда поиск таблиц становится невозможным.) Форма значения с приближением линейной функции определяется какQ−Q−Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, где - веса, а - характеристики.wiwiw_ififif_i Функции предопределены пользователем. У меня вопрос, как распределяются …

2
Когда методы Монте-Карло предпочтительнее, чем временные?
В последнее время я много занимаюсь изучением подкрепления. Я следовал Sutton & Barto's Reinforcement Learning: Введение для большей части этого. Я знаю, что такое Марковские процессы принятия решений и как для их решения можно использовать динамическое программирование (DP), метод Монте-Карло и временную разность (DP). У меня проблема в том, что …

1
Какова политика развертывания в статье АльфаГо?
Бумага здесь . Политика развертывания ... - это линейная политика softmax, основанная на быстрых, постепенно вычисляемых локальных функциях на основе шаблонов ... Я не понимаю, что такое политика развертывания и как она связана с политикой сети выбора хода. Любое более простое объяснение?

1
Q-обучение с нейронной сетью как функция приближения
Я пытаюсь использовать нейронную сеть, чтобы приблизить Q-значение в Q-Learning, как в вопросах о Q-Learning с использованием нейронных сетей . Как было предложено в первом ответе, я использую линейную функцию активации для выходного слоя, в то время как я все еще использую функцию активации сигмоида в скрытых слоях (2, хотя …


1
Можно ли обучить модель P (Y | X) с помощью стохастического градиентного спуска из неидеальных выборок P (X) и iid выборок P (Y | X)?
При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы смоделировать совместное распределение , то каждый обучающий образец должен быть взят из этого распределения.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Если вместо …

2
Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?
Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения V∗V∗V^* и оптимальной политике .π∗π∗\pi^* Напомним, итерация политики: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.