Вот несколько хороших учебников / ссылок:
классический
Саттон Р.С., Барто АГ. Усиление обучения: введение. Кембридж, Массачусетс: Книга Брэдфорда; 1998. 322 с.
Черновик для второго издания доступен бесплатно: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html.
Рассел / Норвиг Глава 21:
Рассел С.Дж., Норвиг П., Дэвис Э. Искусственный интеллект: современный подход. Аппер-Седл-Ривер, Нью-Джерси: Прентис Холл; 2010.
Более технический
Szepesvári C. Алгоритмы для обучения с подкреплением. Обобщающие лекции по искусственному интеллекту и машинному обучению. 2010; 4 (1): 1-103. http://www.ualberta.ca/~szepesva/RLBook.html
Берцекас Д.П. Динамическое программирование и оптимальное управление. 4-е издание. Belmont, Mass .: Athena Scientific; 2007. 1270 с.
Глава 6, том 2 доступен бесплатно: http://web.mit.edu/dimitrib/www/dpchapter.pdf
Для более свежих разработок
Виринг М, ван Оттерло М, редакция. Усиление обучения. Берлин, Гейдельберг: Springer Berlin Heidelberg; 2012 Доступно с: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynolds HJD, Thornton JR, et al. Принятие решений в условиях неопределенности: теория и применение. 1 издание. Кембридж, Массачусетс: MIT Press; 2015. 352 с.
Многоагентное обучение с подкреплением
Buşoniu L, Babuška R, Schutter BD. Многоагентное обучение по усилению: обзор. В кн .: Сринивасан Д., Джайн Л.К., редакторы. Инновации в многоагентных системах и приложениях - 1. Springer Berlin Heidelberg; 2010 р. 183-221. Доступно по адресу: http://link.springer.com/chapter/10.1007/978-3-642-14435-6_7.
Шварц Х.М. Многоагентное машинное обучение: подход подкрепления. Хобокен, Нью-Джерси: Wiley; 2014.
Видео / Курсы
Я бы также предложил курс Дэвида Сильвера на YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa