Какой хороший ресурс для знакомства с обучением подкреплению?


8

Я знаком с контролируемым и неконтролируемым обучением. Я прошел курс SaaS Эндрю Нга на Coursera.org.

Я ищу что-то подобное для обучения подкреплению.

Вы можете порекомендовать что-нибудь?

Ответы:


5

К хорошим ответам здесь я бы добавил

Они едва царапают поверхность RL, но они должны помочь вам начать.


3

Есть список воспроизведения на YouTube (на канале DeepMind ), название которого - Введение в обучение с подкреплением , представляющее собой курс (из 10 уроков) по обучению с подкреплением от David Silver .

Человек, который следовал и закончил курс, написал (как комментарий Youtube):

Отличный курс. Хороший темп, достаточно примеров, чтобы обеспечить хорошую интуицию, и учил кто-то, кто является лидером в области применения RL к играм.


3

Перед этим спросите себя, действительно ли вы хотите узнать об «обучении подкреплению». Хотя в обучении с подкреплением много ажиотажа, практическая применимость обучения с подкреплением практически отсутствует. Большинство онлайн-курсов очень мало учат вас машинному обучению, поэтому гораздо лучше освоить его, чем переходить к усиленному обучению. Обучение с подкреплением обучения несколько отличается от обучения методам обучения без учителя / под наблюдением.

Сказав это, самый быстрый способ получить хорошее представление о подкреплении обучения заключается в следующем:

  1. Прочитайте сообщение в блоге Андрея Карпати "Понг из пикселей".

  2. Посмотрите лекции Deep RL Bootcamp .

  3. Чтобы понять математику, лежащую в основе этих методов, обратитесь к Саттону и « Усиленному обучению Барто : Введение» .

  4. Читайте соответствующие статьи (игры и т. Д.).

PS: убедитесь, что вы разбираетесь в основах нейронных сетей, так как большинство современных статей в RL так или иначе используют DNN в качестве аппроксиматоров.


real-world applicability of reinforcement learning is almost non-existent АльфаГо прошел обучение с обучением подкреплению.
cantordust

Спасибо, что мне нравится в обучении с подкреплением, так это то, что оно может улучшить себя, просто выполняя задание снова и снова. Нет надзора не требуется. Только модель должна правильно описать проблему.
Мартин С

1
@cantordust, проверьте alexirpan.com/2018/02/14/rl-hard.html
riemann77

@thecomplexitytheorist Да, я знаю об этом посте, и да, есть трудности, связанные с RL (как и любой другой метод ML). Однако эти трудности не означают, что его применимость равна нулю. Еще один успешный пример (также упоминаемый в посте) - повышение эффективности охлаждения центров обработки данных Google на 40% - едва ли незначительное.
cantordust

1
@cantordust, вы должны прочитать этот пост полностью, там нет обучения «усиленному обучению», связанному с «повышением эффективности охлаждения», они четко упомянули, что делают прогнозы на основе прошлых данных о потреблении энергии.
riemann77


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.