«Основы машинного обучения » Мехьяра Мохри, Афшина Ростамизаде и Амета Тальвалкара - книга 2012 года по теории машинного обучения.
Понимание машинного обучения: от теории к алгоритмам , Шаи Шалев-Шварц и Шай Бен-Давид, похожая книга 2014 года, которая достаточно известна и нацелена на несколько более вводную информацию, чем Мори / Ростамизаде / Тальвалкар, но все еще имеет много теории в Это. Это свободно доступно онлайн.
Обучение нейронным сетям: теоретические основы , написанные Мартином Энтони и Питером Бартлеттом, - это книга 1999 года о теории ML, сформулированная как посвященная нейронным сетям, но (на мой взгляд, я ее не читал) в основном посвящена теории ML в целом.
Эти три книги в основном придерживаются доминирующей точки зрения теории статистического обучения. Существует также интересная точка зрения, называемая вычислительной теорией обучения, которая больше вдохновлена теорией информатики. Я думаю, что стандартной вводной книгой в этой области является Введение в теорию компьютерного обучения , книга 1994 года Майкла Кернса и Умеша Вазирани.
Другая превосходная и часто рекомендуемая книга в свободном доступе - это Тревор Хасти, Роберт Тибширани и второе издание «Элементы статистического обучения» Джерома Фридмана за 2009 год . Это, возможно, немного менее теоретически, чем другие, и больше с точки зрения статистики, чем у обучающихся машин, но все еще вызывает большой интерес.
Кроме того, если вы заботитесь, в частности, о градиентном спуске, стандартным справочником является выпуклая оптимизация Стивена Бойда и Ливена Ванденберге. Эта книга 2004 года свободно доступна онлайн.
Ни одна из этих книг не содержит много информации о современной теории глубоких сетей, если это то, что вас волнует. (Например, большая часть теории оптимизации будет о выпуклых случаях, которые, безусловно, не являются глубокими сетями.) Это потому, что эта теория очень новая; большинство результатов появилось только за последние несколько лет, и это еще очень важно выяснить. Но, как обзор базового понимания области до сих пор, любой из них поможет вам лучше понять документы, в которых выполняется эта работа (за исключением, возможно, Kearns / Vazirani, который фокусируется на различных аспектах анализа, которые я ' я не уверен, что был успешно применен к глубоким сетям - пока).