Обучение под наблюдением, обучение без учителя и обучение с подкреплением: основы рабочего процесса


30

Контролируемое обучение

  • 1) Человек строит классификатор на основе входных и выходных данных
  • 2) Этот классификатор обучается с обучающим набором данных
  • 3) Этот классификатор тестируется с тестовым набором данных
  • 4) Развертывание, если выход удовлетворительный

Для использования, когда «я знаю, как классифицировать эти данные, мне просто нужно, чтобы вы (классификатор) отсортировали их».

Точка метода: для меток классов или для получения действительных чисел

Неконтролируемое обучение

  • 1) Человек строит алгоритм на основе входных данных
  • 2) Этот алгоритм тестируется с тестовым набором данных (в котором алгоритм создает классификатор)
  • 3) Развертывание, если классификатор удовлетворительный

Для использования, когда: «Я понятия не имею, как классифицировать эти данные, вы можете (алгоритм) создать классификатор для меня?»

Точка метода: для меток классов или для прогнозирования (PDF)

Усиление обучения

  • 1) Человек строит алгоритм на основе входных данных
  • 2) Этот алгоритм представляет состояние, зависящее от входных данных, в которых пользователь награждает или наказывает алгоритм посредством действия , предпринятого алгоритмом, это продолжается со временем
  • 3) Этот алгоритм учится на награду / наказание и обновляет себя, это продолжается
  • 4) Он всегда в производстве, ему нужно изучать реальные данные, чтобы иметь возможность представлять действия от государств

Для использования, когда «я понятия не имею, как классифицировать эти данные, можете ли вы классифицировать эти данные, и я дам вам вознаграждение, если это правильно, или я накажу вас, если это не так».

Является ли это потоком этих практик, я много слышу о том, что они делают, но практическая и образцовая информация ужасно мала!


Очень понравилось, как вы представили свой вопрос. Я нашел этот ответ полезным: stats.stackexchange.com/a/522/92255
Ашеш Кумар Сингх

Ответы:


3

Это очень хорошее компактное введение в основные идеи!

Усиление обучения

Я думаю, что ваше описание варианта использования обучения с подкреплением не совсем верно. Термин классифицировать не подходит. Лучшее описание будет:

Я не знаю, как действовать в этой среде , можете ли вы найти хорошее поведение, и в то же время я дам вам обратную связь .

Другими словами, цель состоит скорее в том, чтобы что-то хорошо контролировать , чем в том, чтобы что-то хорошо классифицировать .

вход

  • Среда , которая определяется
    • все возможные состояния
    • возможные действия в штатах
  • Функция вознаграждения зависит от состояния и / или действия

Алгоритм

  • Агент
    • находится в состоянии
    • принимает меры для перевода в другое государство
    • получает награду за действия в государстве

Выход

  • Агент хочет найти оптимальную политику, которая максимизирует вознаграждение

2

Отказ от ответственности: я не эксперт, и я даже никогда не делал что-то с обучением подкреплению (пока), поэтому любые отзывы будут приветствоваться ...

Вот ответ, который добавляет к вашему списку несколько крошечных математических заметок и несколько разных мыслей о том, когда и что использовать. Я надеюсь, что перечисление достаточно очевидно:

контролируемый

  1. У нас есть данныеD={(x0,y0),(x1,y1),,(xn,yn)}
  2. Мы ищем модель которая минимизирует некоторую меру потерь / затрат для всех точекgL(yi,g(xi))0i<l
  3. Мы оцениваем модель путем вычисления потерь / стоимости для остальных данных ( ), чтобы понять, насколько хорошо модель обобщаетсяLLяN

Мы можем привести примеры, но мы не можем дать алгоритм для перехода от ввода к выводу.

Настройка для классификации и регрессии

бесконтрольный

  1. У нас есть данныеDзнак равно{Икс0,Икс1,...,ИксN}
  2. Мы ищем модель которая дает нам некоторое представление о наших данных.г
  3. У нас практически нет мер, чтобы сказать, сделали ли мы что-то полезное / интересное

У нас есть некоторые данные, но мы не знаем, с чего начать искать полезные / интересные вещи

Настройка для кластеризации, уменьшения размерности, поиска скрытых факторов, генеративных моделей и т. Д.

армирование

  1. У нас нет данных
  2. Мы строим модель которая генерирует данные (часто называемые действиями), которые могут основываться на измерениях и / или предыдущих действиях, в попытке максимизировать некоторую меру вознаграждениягИксяр(Икся) , которая обычно не известна модели (ее также необходимо изучить).
  3. Мы оцениваем с помощью функции вознаграждения после того, как у нее было некоторое время на обучение.

Мы понятия не имеем, как что-то сделать, но мы можем сказать, было ли это сделано правильно или неправильно

Это кажется особенно полезным для последовательного решения задач.

Ссылки:
Си, Дж., Барто, А., Пауэлл, У. и Вунш, Д. (2004) Обучение с подкреплением и его связь с контролируемым обучением, в «Руководстве по обучению и приблизительному динамическому программированию», John Wiley & Sons, Inc., Хобокен, Нью-Джерси, США. doi: 10.1002 / 9780470544785.ch2

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.