Обучение относится к любому алгоритму, который уточняет представление о мире через воздействие опыта или на примеры опыта других. Алгоритмы обучения не имеют четкого родителя, так как они были разработаны отдельно во многих различных подполях или дисциплинах. Разумная таксономия - это модель 5 племен . Некоторые алгоритмы обучения фактически используют поиск внутри себя, чтобы выяснить, как изменить свои убеждения в ответ на новый опыт!
Примером алгоритма обучения, используемого сегодня, является Q-learning , которая является частью более общего семейства алгоритмов обучения с подкреплением . Q-learning работает так:
а. Программа обучения (обычно называемая агентом ) получает представление о текущем состоянии мира и список действий, которые она может выбрать для выполнения.
б. Если агент не видел этого состояния мира раньше, он присваивает случайное число вознаграждению, которое он ожидает получить за выполнение каждого действия. Он хранит этот номер какQ ( s , a )Угадай качество выполненных действий a в состоянии s,
с. Агент смотрит наQ ( s , a )за каждое действие, которое он может выполнить. Он выбирает лучшее действие с некоторой вероятностьюε и в противном случае действует случайным образом.
д. Действие агента вызывает изменение мира и может привести к тому, что агент получит вознаграждение от среды. Агент отмечает, получил ли он вознаграждение (и сколько это было), и на что похоже новое состояние мира. Затем он корректирует свою веру в качество выполнения действия, которое он выполнял в том состоянии, в котором он находился, таким образом, чтобы его вера в качество этого действия была ближе к реальности вознаграждения, которое он получил, и к качеству того, где оно было выполнено. в итоге.
е. Агент повторяет шаги bd навсегда. Со временем его представления о качестве различных пар «состояние / действие» будут все больше совпадать с реальностью.