Контролируемое обучение

1) Человек строит классификатор на основе входных и выходных данных
2) Этот классификатор обучается с обучающим набором данных
3) Этот классификатор тестируется с тестовым набором данных
4) Развертывание, если выход удовлетворительный

Для использования, когда «я знаю, как классифицировать эти данные, мне просто нужно, чтобы вы (классификатор) отсортировали их».

Точка метода: для меток классов или для получения действительных чисел

Неконтролируемое обучение

1) Человек строит алгоритм на основе входных данных
2) Этот алгоритм тестируется с тестовым набором данных (в котором алгоритм создает классификатор)
3) Развертывание, если классификатор удовлетворительный

Для использования, когда: «Я понятия не имею, как классифицировать эти данные, вы можете (алгоритм) создать классификатор для меня?»

Точка метода: для меток классов или для прогнозирования (PDF)

Усиление обучения

1) Человек строит алгоритм на основе входных данных
2) Этот алгоритм представляет состояние, зависящее от входных данных, в которых пользователь награждает или наказывает алгоритм посредством действия , предпринятого алгоритмом, это продолжается со временем
3) Этот алгоритм учится на награду / наказание и обновляет себя, это продолжается
4) Он всегда в производстве, ему нужно изучать реальные данные, чтобы иметь возможность представлять действия от государств

Для использования, когда «я понятия не имею, как классифицировать эти данные, можете ли вы классифицировать эти данные, и я дам вам вознаграждение, если это правильно, или я накажу вас, если это не так».

Является ли это потоком этих практик, я много слышу о том, что они делают, но практическая и образцовая информация ужасно мала!

— Карл Моррисон
источник

Очень понравилось, как вы представили свой вопрос. Я нашел этот ответ полезным: stats.stackexchange.com/a/522/92255

— Ашеш Кумар Сингх

3

Это очень хорошее компактное введение в основные идеи!

Усиление обучения

Я думаю, что ваше описание варианта использования обучения с подкреплением не совсем верно. Термин классифицировать не подходит. Лучшее описание будет:

Я не знаю, как действовать в этой среде , можете ли вы найти хорошее поведение, и в то же время я дам вам обратную связь .

Другими словами, цель состоит скорее в том, чтобы что-то хорошо контролировать , чем в том, чтобы что-то хорошо классифицировать .

вход

Среда , которая определяется
- все возможные состояния
- возможные действия в штатах
Функция вознаграждения зависит от состояния и / или действия

Алгоритм

Агент
- находится в состоянии
- принимает меры для перевода в другое государство
- получает награду за действия в государстве

Выход

Агент хочет найти оптимальную политику, которая максимизирует вознаграждение

— elcombato
источник

2

Отказ от ответственности: я не эксперт, и я даже никогда не делал что-то с обучением подкреплению (пока), поэтому любые отзывы будут приветствоваться ...

Вот ответ, который добавляет к вашему списку несколько крошечных математических заметок и несколько разных мыслей о том, когда и что использовать. Я надеюсь, что перечисление достаточно очевидно:

контролируемый

У нас есть данные $\mathcal{D} = \{(\boldsymbol{x}_0,y_0), (\boldsymbol{x}_1,y_1), \ldots, (\boldsymbol{x}_n,y_n)\}$
Мы ищем модель которая минимизирует некоторую меру потерь / затрат для всех точек $g$ $L(y_i, g(\boldsymbol{x}_i))$ $0 \leq i < l$
Мы оцениваем модель путем вычисления потерь / стоимости для остальных данных ( ), чтобы понять, насколько хорошо модель обобщается $L$ $l \leq i \leq n$

Мы можем привести примеры, но мы не можем дать алгоритм для перехода от ввода к выводу.

Настройка для классификации и регрессии

бесконтрольный

У нас есть данные $\mathcal{D} = \{\boldsymbol{x}_0, \boldsymbol{x}_1, \ldots, \boldsymbol{x}_n\}$
Мы ищем модель которая дает нам некоторое представление о наших данных. $g$
У нас практически нет мер, чтобы сказать, сделали ли мы что-то полезное / интересное

У нас есть некоторые данные, но мы не знаем, с чего начать искать полезные / интересные вещи

Настройка для кластеризации, уменьшения размерности, поиска скрытых факторов, генеративных моделей и т. Д.

армирование

У нас нет данных
Мы строим модель которая генерирует данные (часто называемые действиями), которые могут основываться на измерениях и / или предыдущих действиях, в попытке максимизировать некоторую меру вознаграждения $g$ $\boldsymbol{x}_i$ $R(\boldsymbol{x}_i)$ , которая обычно не известна модели (ее также необходимо изучить).
Мы оцениваем с помощью функции вознаграждения после того, как у нее было некоторое время на обучение.

Мы понятия не имеем, как что-то сделать, но мы можем сказать, было ли это сделано правильно или неправильно

Это кажется особенно полезным для последовательного решения задач.

Ссылки:
Си, Дж., Барто, А., Пауэлл, У. и Вунш, Д. (2004) Обучение с подкреплением и его связь с контролируемым обучением, в «Руководстве по обучению и приблизительному динамическому программированию», John Wiley & Sons, Inc., Хобокен, Нью-Джерси, США. doi: 10.1002 / 9780470544785.ch2

— Мистер Цйолдер
источник

Обучение под наблюдением, обучение без учителя и обучение с подкреплением: основы рабочего процесса

Контролируемое обучение

Неконтролируемое обучение

Усиление обучения

Усиление обучения

вход

Алгоритм

Выход

контролируемый

бесконтрольный

армирование