Вопросы с тегом «reinforcement-learning»

Набор динамических стратегий, с помощью которых алгоритм может изучать структуру среды в сети, адаптивно предпринимая действия, связанные с различными вознаграждениями, чтобы максимизировать заработанные вознаграждения.

5
В чем разница между обучением вне политики и вне политики?
Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом: «Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом, включая этапы исследования «. Я хотел бы попросить вашего разъяснения по этому поводу, потому …

3
Понимание роли дисконтного фактора в обучении с подкреплением
Я учу себя изучению подкрепления и пытаюсь понять концепцию дисконтированного вознаграждения. Таким образом, награда необходима, чтобы сообщить системе, какие пары состояние-действие хороши, а какие плохи. Но то, что я не понимаю, - то, почему дисконтированное вознаграждение необходимо. Почему должно иметь значение, достигнуто ли хорошее состояние скорее раньше, чем позже? Я …

2
Почему нет механизмов глубокого обучения шахматам, похожих на AlphaGo?
Компьютеры в течение долгого времени могли играть в шахматы, используя метод "грубой силы", исследуя определенную глубину и затем оценивая позицию. Компьютер AlphaGo, однако, использует только ANN для оценки позиций (насколько я знаю, он не выполняет поиск по глубине). Можно ли создать шахматный движок, который будет играть в шахматы так же, …


2
Обучение под наблюдением, обучение без учителя и обучение с подкреплением: основы рабочего процесса
Контролируемое обучение 1) Человек строит классификатор на основе входных и выходных данных 2) Этот классификатор обучается с обучающим набором данных 3) Этот классификатор тестируется с тестовым набором данных 4) Развертывание, если выход удовлетворительный Для использования, когда «я знаю, как классифицировать эти данные, мне просто нужно, чтобы вы (классификатор) отсортировали их». …

3
Лучший бандитский алгоритм?
Самым известным бандитским алгоритмом является верхний предел доверия (UCB), который популяризировал этот класс алгоритмов. С тех пор я предполагаю, что теперь есть лучшие алгоритмы. Каков текущий лучший алгоритм (с точки зрения либо эмпирической производительности, либо теоретических границ)? Является ли этот алгоритм оптимальным в некотором смысле?

3
Ежедневный анализ временных рядов
Я пытаюсь провести анализ временных рядов, и я новичок в этой области. У меня есть ежедневный подсчет событий с 2006 по 2009 год, и я хочу приспособить модель временного ряда к нему. Вот прогресс, который я сделал: timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) В результате получается сюжет: Чтобы проверить, есть ли сезонность …

4
Как бы вы разработали систему машинного обучения для игры в Angry Birds?
После игры слишком много Angry Birds я начал наблюдать за своими собственными стратегиями. Оказывается, я разработал очень специфический подход к получению 3 звезд на каждом уровне. Это заставило меня задуматься о проблемах разработки системы машинного обучения, которая могла бы играть в Angry Birds. Взаимодействие с игрой и запуск птиц является …

2
Что такое повторное обучение
Недавно я наткнулся на слово «Обучение периодическому усилению». Я понимаю, что такое «Рекуррентная нейронная сеть» и что такое «Обучение с подкреплением», но не смог найти много информации о том, что такое «Рекуррентное обучение с подкреплением». Может кто-нибудь объяснить мне, что такое «периодическое обучение с подкреплением» и в чем разница между …

1
Когда выбрать SARSA против Q Learning
SARSA и Q Learning - это алгоритмы обучения с подкреплением, которые работают аналогичным образом. Самым поразительным отличием является то, что SARSA придерживается политики, а Q Learning - вне политики. Правила обновления следующие: Q Обучение: Q ( s)T,T) ← Q ( s)T,T) + α [ rт + 1+ γ максa'Q ( …

4
Почему Q-Learning использует эпсилон-жадный во время тестирования?
В статье DeepMind о Q-Learning для видеоигр Atari ( здесь ) они используют эпсилон-жадный метод для исследования во время обучения. Это означает, что когда действие выбирается в процессе обучения, оно выбирается либо как действие с наибольшим значением q, либо как случайное действие. Выбор между этими двумя вариантами является случайным и …

2
как сделать функцию вознаграждения в обучении подкрепления
Изучая обучение подкреплению, я сталкивался со многими формами функции вознаграждения: , и даже с функцией вознаграждения, которая зависит только от текущего состояния. Сказав это, я понял, что не очень легко «сделать» или «определить» функцию вознаграждения.R ( s , a )р(s,a)R(s,a)R ( s , a , s)')р(s,a,s')R(s,a,s') Вот мои вопросы: Существуют …

2
Почему буква Q была выбрана в Q-learning?
Почему буква Q была выбрана во имя Q-learning? Большинство букв выбраны в качестве аббревиатуры, например, ππ\pi обозначает политику, а vvv обозначает значение. Но я не думаю, что Q - это аббревиатура любого слова.

1
Является ли контролируемое обучение подмножеством обучения с подкреплением?
Похоже, что определение контролируемого обучения является подмножеством обучающего обучения с особым типом функции вознаграждения, основанной на помеченных данных (в отличие от другой информации в среде). Это точное изображение?

4
В каких реальных ситуациях мы можем использовать алгоритм многорукого бандита?
Многорукие бандиты хорошо работают в ситуации, когда у вас есть выбор, и вы не уверены, какой из них увеличит ваше самочувствие. Вы можете использовать алгоритм для некоторых реальных жизненных ситуаций. В качестве примера, обучение может быть хорошей областью: Если ребенок изучает столярное дело, и он плохо в этом разбирается, алгоритм …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.