Вопросы с тегом «reinforcement-learning»

Для вопросов, связанных с обучением, контролируемых внешним положительным подкреплением или отрицательным сигналом обратной связи или и тем, и другим, когда изучение и использование того, что уже изучено, происходит одновременно.

1
Что такое оператор Беллмана в обучении подкреплению?
В математике оператор слова может относиться к нескольким различным, но связанным понятиям. Оператор может быть определен как функция между двумя векторными пространствами, он может быть определен как функция, в которой домен и кодомен одинаковы, или его можно определить как функцию от функций (которые являются векторами) к другим функциям (для Например, …

2
Почему базовый уровень зависит от состояния в какой-то момент времени непредвзято?
В робототехнике, метод обучения подкрепления используется для поиска шаблона управления для робота. К сожалению, большинство методов градиента политики являются статистически необъективными, что может привести робота к небезопасной ситуации, см. Стр. 2 в публикации «Ян Петерс и Штефан Шааль: Обучение усилению моторных навыков с помощью градиентов политики, 2008». При моторном примитивном …

1
Несколько сомнений относительно применения обучения с подкреплением в таких играх, как шахматы
Я изобрел шахматную настольную игру. Я построил двигатель, чтобы он мог играть автономно. Двигатель в основном дерево решений. Он состоит из: Функция поиска, которая на каждом узле находит все возможные законные ходы Функция оценки, которая присваивает числовое значение позиции на доске (положительное значение означает, что первый игрок получает преимущество, отрицательное …

3
Поиск по дереву Монте-Карло квалифицируется как машинное обучение?
Насколько я понимаю, алгоритм поиска дерева Монте-Карло (MCTS) является альтернативой минимаксному поиску дерева узлов. Он работает, выбирая ход (как правило, тот, у которого больше шансов быть лучшим), а затем выполняя случайную игру на ходу, чтобы посмотреть, каков будет результат. Этот процесс продолжается в течение выделенного времени. Это не похоже на …


1
Существуют ли другие модели машинного обучения, кроме Reinforcement Learning и Q Learning, для видеоигр?
OpenAI Universe использует алгоритмы RL, и я слышал о некоторых проектах по обучению игре, использующих Q learning, но есть ли другие, которые используются для освоения / победы в играх? Можно ли использовать генетические алгоритмы для победы в игре?

1
Знакомство с непрерывными пространствами состояний / действий, MDP и Reinforcement Learning
Большинство введений в области MDP и обучения в области подкрепления сосредоточены исключительно на областях, где переменные пространства и действия являются целыми (и конечными). Таким образом, мы быстро знакомимся с Value Iteration, Q-Learning и тому подобным. Однако наиболее интересные применения (скажем, летающие вертолеты ) RL и MDP связаны с непрерывным пространством …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.