5
Какая функция вознаграждения приводит к оптимальному обучению?
Давайте подумаем о следующих ситуациях: Вы учите робота играть в пинг-понг Вы учите программу для вычисления квадратного корня Вы учите математику ребенку в школе Эти ситуации (то есть контролируемое обучение) и многие другие имеют одну (среди прочих) общую черту: учащийся получает вознаграждение в зависимости от его успеваемости. У меня вопрос, …