Учебник по усилению обучения

12

Я ищу учебник / лекционные заметки в обучении подкреплению. Мне нравится «Введение в статистическое обучение» , но, к сожалению, они не охватывают эту тему. Я знаю, что книга Саттона и Барто является стандартным справочником, и, возможно, НДП также хороша, но они датированы 1997-98 гг., И я надеялся найти более современную экспозицию, поскольку эта область, вероятно, получит довольно широкое развитие в последнее время. время.

machine-learning references

— Ulysses
источник

15

Я думаю, что Саттон и Барто по-прежнему стандарт. В Интернете есть много слайд-колод и заметок из классов искусственного интеллекта, но они обычно не вдаваются в подробности.

Саттон и Барто немного староваты, но они готовят второе издание своего учебника. Черновик от января 2018 года доступен здесь ; он связан с веб-страницей Саттона , которая также содержит полный текст первого издания.

$\textrm{TD(}\lambda\textrm{)}$

Помимо этого, вы можете попробовать погрузиться в некоторые статьи - учебные материалы по подкреплению, как правило, довольно доступны.

— Мэтт Краузе
источник

Спасибо, я посмотрел на новую редакцию, но я бы не сказал, что она сильно обновлена. Я все еще заинтересован в обновлении информации.

— Улисс

Да, это определенно не полный пересмотр, но больше ничего не приходит на ум, кроме некоторых томов «Записок лекций» Спрингера, которые по сути являются просто сборниками статей. Если вы найдете что-то еще, пожалуйста, опубликуйте обновление; Я хотел бы проверить это.

— Мэтт Краузе

Я вижу, конечно, я сделаю

— Улисс

1

@CharlieParker, я не уверен. Последний черновик (19 июня 2017 г.) выглядит довольно полным и упоминает MIT Press, но сайт MIT Press, похоже, все еще продает первое издание. Что бы это ни стоило, черновик прямо с общедоступного веб-сайта авторов, поэтому нет необходимости беспокоиться об использовании «утечек» версии или чего-то в этом роде.

— Мэтт Краузе

1

@ Томас, я обновил ссылку с более новым проектом.

— Мэтт Краузе

6

Возможно, вы захотите проверить « Алгоритмы обучения усилению » Чабы Шепешвари, опубликованные в 2010 году. PDF можно загрузить с веб-сайта. На мой взгляд, он немного более технический, чем Саттон и Барто, но охватывает меньше материала.

— Wij
источник

6

Вот несколько хороших учебников / ссылок:

классический

Саттон Р.С., Барто АГ. Усиление обучения: введение. Кембридж, Массачусетс: Книга Брэдфорда; 1998. 322 с.

Черновик для второго издания доступен бесплатно: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html.

Рассел / Норвиг Глава 21:

Рассел С.Дж., Норвиг П., Дэвис Э. Искусственный интеллект: современный подход. Аппер-Седл-Ривер, Нью-Джерси: Прентис Холл; 2010.

Более технический

Szepesvári C. Алгоритмы для обучения с подкреплением. Обобщающие лекции по искусственному интеллекту и машинному обучению. 2010; 4 (1): 1-103. http://www.ualberta.ca/~szepesva/RLBook.html

Берцекас Д.П. Динамическое программирование и оптимальное управление. 4-е издание. Belmont, Mass .: Athena Scientific; 2007. 1270 с. Глава 6, том 2 доступен бесплатно: http://web.mit.edu/dimitrib/www/dpchapter.pdf

Для более свежих разработок

Виринг М, ван Оттерло М, редакция. Усиление обучения. Берлин, Гейдельберг: Springer Berlin Heidelberg; 2012 Доступно с: http://link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Принятие решений в условиях неопределенности: теория и применение. 1 издание. Кембридж, Массачусетс: MIT Press; 2015. 352 с.

Многоагентное обучение с подкреплением

Buşoniu L, Babuška R, Schutter BD. Многоагентное обучение по усилению: обзор. В кн .: Сринивасан Д., Джайн Л.К., редакторы. Инновации в многоагентных системах и приложениях - 1. Springer Berlin Heidelberg; 2010 р. 183-221. Доступно по адресу: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7.

Шварц Х.М. Многоагентное машинное обучение: подход подкрепления. Хобокен, Нью-Джерси: Wiley; 2014.

Видео / Курсы

Я бы также предложил курс Дэвида Сильвера на YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

— Хуан Лени
источник

3

Мои любимые конспекты лекций по обучению подкреплению - Эндрю Нг из Стэнфордского курса по ML CS229:

Учебные записки по ремонту Stanford CS229

Вы также можете скачать видео лекции на iTunes. Или на YouTube, они начинаются по следующей ссылке:

Лекция 16 CS229

— Чарли Паркер
источник