Статистика и большие данные reinforcement-learning

3

Почему всегда есть хотя бы одна политика, которая лучше или равна всем другим политикам?

Усиление обучения: введение. Второе издание, в процессе ., Ричард С. Саттон и Эндрю Дж. Барто (с) 2012, с. 67-68. Решение задачи обучения с подкреплением означает, грубо говоря, поиск политики, которая в конечном итоге приносит много пользы. Для конечных MDP мы можем точно определить оптимальную политику следующим образом. Функции значения определяют …

15 markov-process reinforcement-learning

2

Вопросы о Q-Learning с использованием нейронных сетей

Я внедрил Q-Learning, как описано в http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Для того, чтобы ок. Q (S, A) Я использую структуру нейронной сети, как показано ниже, Активация сигмовидной кишки Входы, количество входов + 1 для нейронов действия (все входы масштабируются 0-1) Выходы, один выход. Значение Q- N количество M скрытых слоев. Метод исследования случайный …

14 machine-learning neural-networks reinforcement-learning

1

ГАМ против проигрыша против сплайнов

Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

1

В чем разница между эпизодом и эпохой в изучении глубокого Q?

Я пытаюсь понять знаменитую статью «Игра Atari с глубоким обучением подкреплению» ( pdf ). Я неясный о различии между эпохой и эпизодом . В алгоритме внешний цикл заканчивается эпизодами , а на рисунке ось х обозначена как эпоха . В контексте обучения подкреплению мне не ясно, что означает эпоха. Является …

14 neural-networks terminology reinforcement-learning q-learning

1

Почему обучение глубокому подкреплению нестабильно?

В документе DeepMind 2015 года об обучении глубокому подкреплению говорится, что «предыдущие попытки объединить RL с нейронными сетями в значительной степени потерпели неудачу из-за нестабильного обучения». Затем в документе перечислены некоторые причины этого, основанные на корреляции между наблюдениями. Пожалуйста, кто-нибудь может объяснить, что это значит? Является ли это формой переоснащения, …

13 machine-learning neural-networks deep-learning reinforcement-learning

1

Оптимальный алгоритм решения n-вооруженных бандитских задач?

Я читал о ряде алгоритмов для решения проблем с n-вооруженными бандитами, таких как -greedy, softmax и UCB1, но у меня возникли некоторые проблемы при выборе лучшего подхода для минимизации сожалений.εε\epsilon Существует ли известный оптимальный алгоритм для решения проблемы вооруженного бандита? Есть ли выбор алгоритма, который, кажется, работает лучше всего на …

13 machine-learning reinforcement-learning multiarmed-bandit

2

Почему для воспроизведения опыта требуется алгоритм вне политики?

В документе, представляющем DQN « Игра Atari с глубоким обучением подкреплению », упоминалось: Обратите внимание, что при обучении с помощью повторного опыта необходимо учиться вне политики (поскольку наши текущие параметры отличаются от тех, которые используются для генерации образца), что мотивирует выбор Q-обучения. Я не совсем понял, что это значит. Что …

12 reinforcement-learning

2

Перевод проблемы машинного обучения в регрессионную структуру

Предположим, у меня есть панель объясняющих переменных , для i = 1 . , , N , t = 1 . , , Т , а также вектор двоичных результатов зависимых переменных У я Т . Таким образом, Y наблюдается только в последний момент времени T, а не в любое …

12 regression machine-learning reinforcement-learning

1

Как вписать веса в Q-значения с приближением линейной функции

В обучении с подкреплением линейное приближение функции часто используется, когда присутствуют большие пространства состояний. (Когда поиск таблиц становится невозможным.) Форма значения с приближением линейной функции определяется какQ−Q−Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, где - веса, а - характеристики.wiwiw_ififif_i Функции предопределены пользователем. У меня вопрос, как распределяются …

12 machine-learning feature-selection reinforcement-learning

2

Когда методы Монте-Карло предпочтительнее, чем временные?

В последнее время я много занимаюсь изучением подкрепления. Я следовал Sutton & Barto's Reinforcement Learning: Введение для большей части этого. Я знаю, что такое Марковские процессы принятия решений и как для их решения можно использовать динамическое программирование (DP), метод Монте-Карло и временную разность (DP). У меня проблема в том, что …

12 monte-carlo reinforcement-learning temporal-difference

1

Какова политика развертывания в статье АльфаГо?

Бумага здесь . Политика развертывания ... - это линейная политика softmax, основанная на быстрых, постепенно вычисляемых локальных функциях на основе шаблонов ... Я не понимаю, что такое политика развертывания и как она связана с политикой сети выбора хода. Любое более простое объяснение?

11 machine-learning monte-carlo reinforcement-learning games

1

Q-обучение с нейронной сетью как функция приближения

Я пытаюсь использовать нейронную сеть, чтобы приблизить Q-значение в Q-Learning, как в вопросах о Q-Learning с использованием нейронных сетей . Как было предложено в первом ответе, я использую линейную функцию активации для выходного слоя, в то время как я все еще использую функцию активации сигмоида в скрытых слоях (2, хотя …

11 neural-networks reinforcement-learning

3

Какова связь между теорией игр и обучением подкреплению?

Я заинтересован в (глубоком) изучении подкрепления (RL) . Прежде чем погрузиться в это поле, я должен пройти курс теории игр (GT) ? Как связаны GT и RL ?

11 deep-learning reinforcement-learning game-theory

1

Можно ли обучить модель P (Y | X) с помощью стохастического градиентного спуска из неидеальных выборок P (X) и iid выборок P (Y | X)?

При обучении параметризованной модели (например, для максимизации вероятности) посредством стохастического градиентного спуска на некотором наборе данных обычно предполагается, что обучающие выборки извлекаются из распределения обучающих данных. Таким образом, если цель состоит в том, чтобы смоделировать совместное распределение , то каждый обучающий образец должен быть взят из этого распределения.P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) Если вместо …

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

Почему алгоритм итерации политики сходится к оптимальной функции политики и стоимости?

Я читал лекционные заметки Эндрю Нга по обучению с подкреплением и пытался понять, почему итерации политики сходятся к функции оптимального значения V∗V∗V^* и оптимальной политике .π∗π∗\pi^* Напомним, итерация политики: Initialize π randomlyRepeat{Let V:=Vπ \for the current policy, solve bellman's eqn's and set that to the current VLet π(s):=argmaxa∈A∑s′Psa(s′)V(s′)}Initialize π randomlyRepeat{Let …

10 reinforcement-learning policy-iteration

Вопросы с тегом «reinforcement-learning»