Какая функция вознаграждения приводит к оптимальному обучению?


13

Давайте подумаем о следующих ситуациях:

  • Вы учите робота играть в пинг-понг
  • Вы учите программу для вычисления квадратного корня
  • Вы учите математику ребенку в школе

Эти ситуации (то есть контролируемое обучение) и многие другие имеют одну (среди прочих) общую черту: учащийся получает вознаграждение в зависимости от его успеваемости.

У меня вопрос, как должна выглядеть функция вознаграждения? Есть ли «лучший» ответ, или это зависит от ситуации? Если это зависит от ситуации, как определить, какую функцию вознаграждения выбрать?

Например, возьмите следующие три функции вознаграждения:

введите описание изображения здесь

  • Функция Aговорит:
    • ниже определенного уровня, плохие или худшие одинаковы: вы ничего не получите
    • есть четкая разница между почти хорошим и идеальным
  • Функция Bговорит:
    • вы получаете вознаграждение, линейно пропорциональное вашей производительности
  • Функция Cговорит:
    • если у вас плохая работа, все в порядке, вы сделали все возможное: вы все еще получаете вознаграждение
    • нет большой разницы между идеальным и почти хорошим

Интуитивно, я думаю, что Aэто сделало бы робота очень сфокусированным и выучило бы точный паттерн, но стало бы глупым, когда Cимело дело с подобными паттернами, и сделало бы его более гибким для изменения за счет потери совершенства.

Можно также подумать о более сложных функциях, просто чтобы показать, но мало:

введите описание изображения здесь

Итак, как узнать, какую функцию выбрать? Является ли это известно , какое поведение будет выходить из (по крайней мере) основные A, Bи Cфункций?


Дополнительный вопрос: будет ли это принципиально отличаться для роботов и детей?


Я сомневаюсь, что робот станет глупым, если будет делать одно и то же или подобное снова и снова, если не будет кибернетическим.
ott--

@ott, я не это имел ввиду. То, что я имел в виду, было с функцией вознаграждения, похожей на то A, что робот мог стать чрезвычайно хорошим в точной задаче, но ужасным в задачах, которые похожи, но немного отличаются. Это только мое предположение, хотя.
Шахбаз

Ах, хорошо, я вижу. Вы думаете о теннисе, например,
ott--

Возможно, теория, лежащая в основе этого, может быть сложной, но ответ, который гласит: «Я думал, что многие роботы выполняют разные задачи и часто функционируют, Xдал мне лучший результат», даже если бы он не был совершенно правильным, дал бы хорошее правило.
Шахбаз

Ответы:


5

Короткий ответ: самый сильный эффект подкрепления происходит от предоставления ценной награды в периодическом (случайном) графике.

Более длинная версия: Один аспект вашего вопроса касается оперантной обусловленности , по крайней мере, в том, что касается преподавания математики сложному организму. Применение этого к машинному обучению известно как обучение с подкреплением .

Экономика (согласно ответу jwpat7 ) затрагивает только одну часть истории подкрепления. Служебная функция сообщает вам, какое вознаграждение имеет самый сильный эффект подкрепления (наибольшее влияние на поведение) в данном контексте. Это похвала? шоколад? кокаин? прямая электрическая стимуляция в определенных областях мозга? В основном мой ответ о влиянии контекста, предполагая данную полезность полезности.

Для сложных организмов / поведения планирование вознаграждения по крайней мере так же важно, как и полезность вознаграждения:

  • «График вознаграждений с фиксированным интервалом» - это наименее эффективный способ изменить поведение с заданным количеством вознаграждений (я буду давать вам 10 долларов в неделю, если вы будете поддерживать порядок в своей спальне). Подумайте, пособие по безработице.
  • Графики вознаграждений с фиксированным соотношением (я буду давать вам 10 долларов каждые семь дней, когда у вас есть аккуратная спальня) более эффективны, чем фиксированные интервалы, но они имеют своего рода потолок эффективности (субъект будет убирать свою комнату семь раз, когда голоден за $ 10, но не иначе). Думаю, наемник.
  • Самый влиятельный способ получить данное вознаграждение с «графиком подкрепления с переменным интервалом» (например, каждый день, когда вы убираете в своей спальне, у вас есть шанс получить $ 10 за 1/7). Вспомни покерный автомат.

Если вы являетесь руководителем обучения с фиксированным бюджетом вознаграждения, для данной учебной ситуации будет оптимальное соотношение размера вознаграждения (полезности) и частоты. Вероятно, это не очень маленький кусочек вознаграждения на очень высокой частоте, и не очень большой кусок вознаграждения, получаемый очень редко. Это может быть даже вознаграждение случайного размера при случайном графике - оптимум обычно определяется экспериментально для конкретной ситуации.

Наконец, «оптимальный» график (случайная частота, случайная величина {p (награда), p (значение)}), вероятно, будет меняться на разных этапах процесса обучения. Например, новый ученик может подвергаться эффекту «первенства» (добро пожаловать! Есть желейный боб), который быстро становится вознаграждением с фиксированным интервалом, если вы повторите это. Может быть эффект «свежести», который получает больше подкрепления от награды, полученной в самом последнем испытании («завершение на высокой ноте»). Между ними может быть накопительный «эффект веры», когда по мере того, как учащийся становится более опытным, оптимум может с течением времени смещаться в сторону меньшей вероятности, более высокой полезности. Опять же, больше вещей, чтобы определить эмпирически в вашей ситуации.


Очень интересный ответ. Это имеет большой смысл.
Шахбаз

Я снова читаю этот ответ, и я снова хочу сказать, насколько хорош этот ответ! На самом деле, позвольте мне дать вам немного щедрости!
Шахбаз

6

«Оптимальное обучение» - это очень расплывчатый термин, и он полностью зависит от конкретной проблемы, над которой вы работаете. Вы ищете термин « переоснащение »: введите описание изображения здесь

(Зеленая линия - это ошибка в прогнозировании результата на данных обучения, фиолетовая линия - это качество модели, а красная линия - ошибка использованной изученной модели «в производстве»).

Другими словами: когда дело доходит до адаптации вашего усвоенного поведения к аналогичным проблемам, то, как вы вознаграждаете свою систему, менее важно, чем сколько раз вы вознаграждали ее - вы хотите уменьшить ошибки в данных обучения, но не держать их в обучении, чтобы долго что он теряет способность работать на похожих моделях.

Один из способов решения этой проблемы - сократить ваши тренировочные данные пополам: используйте одну половину для обучения, а другую - для проверки обучения. Это поможет вам определить, когда вы начинаете перетягивать.

Нелинейные функции вознаграждения

Большинство контролируемых алгоритмов обучения ожидают, что применение функции вознаграждения даст выпуклый результат. Другими словами, наличие локальных минимумов на этой кривой не позволит вашей системе перейти к правильному поведению. Это видео показывает небольшую часть математики, стоящей за функциями цена / вознаграждение .


3

Эти вопросы в некоторой степени решаются путем изучения функций полезности в экономике. Функция полезности выражает эффективные или воспринимаемые значения одной вещи в терминах другой. (Хотя кривые, показанные в вопросе, представляют собой функции вознаграждения и показывают, сколько вознаграждения будет предлагаться для различных уровней производительности, аналогичные функции полезности могут выражать, сколько результатов производительности дает различные уровни вознаграждения.)

Какая функция вознаграждения будет работать лучше всего, зависит от равновесия между плательщиком и исполнителем. Статья кривой контракта в Википедии иллюстрирует с помощью блоков Эджворта, как найти эффективное распределение по Парето . Полезности фон Неймана-Моргенштерна теорема очерчивает условия, обеспечивающие , что агент является VNM-рациональным и могут быть охарактеризованы как имеющие функцию полезности. Раздел «Поведенческие прогнозы, вытекающие из полезности HARA» статьи « Гиперболическое неприятие абсолютного риска» в Википедии описывает поведенческие последствия определенных функций полезности.

Резюме: Эти темы были предметом огромных исследований в области экономики и микроэкономики. К сожалению, извлечение краткого и полезного резюме, которое отвечает на ваш вопрос, может также потребовать огромного количества работы или внимания кого-то более опытного, чем я.


Это довольно сложно, я не уверен, что понимаю. Но вы уверены, что функция полезности экономики применима и к робототехнике? При контролируемом обучении (робота) плательщик фактически ничего не теряет. Наградой часто будет просто число, сообщающее роботу, насколько хорошо они выполнили задание.
Шахбаз

1

Оптимальная функция вознаграждения зависит от цели обучения, то есть от того, что нужно изучать. Для простых задач может быть возможно найти представление в закрытой форме для оптимальной функции вознаграждения. На самом деле для действительно простых задач я уверен, что это возможно, хотя я не знаю формальных методов для этого (я подозреваю, что теория полезности могла бы решить этот вопрос). Для более сложных задач я бы сказал, что невозможно найти решение в закрытой форме.

Вместо того, чтобы искать оптимальную функцию, мы могли бы обратиться к эксперту за хорошей функцией вознаграждения. Одним из подходов к этому является метод под названием «Обучение обратному усилению» (IRL). Она формулирует проблему обучения как проблему обучения с подкреплением, когда функция вознаграждения неизвестна и цель процесса обучения. Документ «Обучение ученикам с помощью обучения обратному подкреплению» Питера Аббила и Эндрю Нга - хорошее место для начала изучения IRL.


0

Любая форма контролируемого обучения - это направленный поиск в пространстве политики. Вы пытаетесь найти политику - то, какое действие предпринять - которая обеспечивает максимальное ожидаемое вознаграждение. В своем вопросе вы даете вознаграждение в зависимости от производительности. Пока эта функция монотонна, любой метод, который сходится, в конечном итоге даст вам максимальную производительность (также придерживайтесь своей терминологии).

Насколько быстро сходится метод - это другой вопрос, и он может зависеть от кривой. Но я думаю, что это будет отличаться от метода к методу.

Совершенно другая проблема заключается в том, что для более сложных сценариев производительность не является простым скаляром, и определить его может быть довольно сложно. Какая функция вознаграждения за то, что ты хорош в математике?


Насколько быстро сходится метод - это другой вопрос, и он может зависеть от кривой. , Да, конечно. Я пытался понять, как кривая влияет на обучение (а не если это так, потому что я уже знаю, что это делает).
Шахбаз
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.