Является ли контролируемое обучение подмножеством обучения с подкреплением?

Похоже, что определение контролируемого обучения является подмножеством обучающего обучения с особым типом функции вознаграждения, основанной на помеченных данных (в отличие от другой информации в среде). Это точное изображение?

— все звезды
источник

Это правда, что любая контролируемая проблема обучения может рассматриваться как эквивалентная проблема обучения с подкреплением: пусть состояния соответствуют входным данным. Пусть действия соответствуют прогнозам выхода. Определите вознаграждение как отрицательную функцию потери, используемую для обучения под наблюдением. Максимизируйте ожидаемое вознаграждение. Напротив, проблемы обучения с подкреплением, как правило, не могут рассматриваться как контролируемые проблемы обучения. Таким образом, с этой точки зрения проблемы обучения под наблюдением являются подмножеством проблем обучения подкрепления.

Но попытка решить контролируемую проблему обучения с использованием общего алгоритма обучения с подкреплением была бы довольно бессмысленной; все, что это делает, это выбрасывает структуру, которая облегчила бы решение проблемы. В процессе обучения с подкреплением возникают различные проблемы, которые не имеют отношения к обучению под наблюдением. И, контролируемое обучение может извлечь выгоду из подходов, которые не применяются в общих условиях обучения подкрепления. Таким образом, хотя между полями существуют некоторые общие базовые принципы и общие методы, обычно не рассматривают контролируемое обучение как тип обучения с подкреплением.

Ссылки

Барто и Диттерих (2004) . Усиленное обучение и его связь с контролируемым обучением.

— user20160
источник