Когда я должен использовать Reinforcement Learning против PID Control?


12

При разработке решений таких проблем, как «Лунный корабль» в OpenAIGym , обучение с подкреплением является заманчивым средством предоставления агенту адекватного контроля действий для успешного приземления.

Но в каких случаях алгоритмы системы управления, такие как ПИД-регуляторы , могли бы выполнять только адекватную работу, если не лучше, чем обучение с подкреплением?

Такие вопросы, как этот , отлично справляются с теорией этого вопроса, но мало что делают для практической составляющей.

Как инженер по искусственному интеллекту, какие элементы проблемной области должны указывать мне на то, что ПИД-регулятора недостаточно для решения проблемы, и вместо этого следует использовать алгоритм обучения подкреплению (или наоборот)?


Основная идея, которую я имею о PID, заключается в том, что ее нелегко разработать. В нем много интегралов и дифференциалов. Так что это в основном та же идея, что и при замене статистики подходами ML. Системы управления, безусловно, безупречны, но это слишком много работы.
DuttaA

2
на самом деле это не слишком много работы, это довольно стандартный в отрасли, с использованием современных инструментов проектирования систем, таких как MATLAB, вы можете настроить PID или любой другой контроллер, относительно легко удовлетворить ваши потребности. Усиленное обучение не применяется на практике, так как оно требует обилия данных, и нет теоретических гарантий, как для классической теории управления. Кстати, дизайн контроллера не предполагает работы непосредственно с интегралами / дифференциалами, для линейных систем вся работа выполняется в области Лапласа, которая включает в себя простые алгебраические манипуляции
Brale_

@Brale_, но он все еще включает в себя много теоретических знаний. Область Лапласа только упрощает дифференциал, но вам нужно знать, как проектировать вещи (полюсы и нули) так, чтобы системы не становились нестабильными. Мне сложно представить, как эти вещи на самом деле работают.
DuttaA

2
Как хорошее практическое правило, которое помогло мне в прошлых проектах, если вы не можете объяснить, как объяснить оптимальную политику (PID, RL или другое) в нескольких предложениях, PID будет действительно очень сложным. Какова оптимальная политика для Пакмана?
Джейден Травник

Ответы:


5

Я думаю, что комментарии в основном на правильном пути.

ПИД-контроллеры полезны для поиска оптимальных политик в непрерывных динамических системах, и часто эти домены также используются в качестве эталонов для RL именно потому, что существует легко полученная оптимальная политика. Однако на практике вы, очевидно, предпочтете PID-контроллер для любого домена, в котором вы можете легко его спроектировать: поведение контроллера хорошо понято, а решения RL часто трудно интерпретировать.

Где RL сияет, это в задачах, где мы знаем, как выглядит хорошее поведение (т. Е. Мы знаем функцию вознаграждения), и мы знаем, как выглядят входы датчиков (т. Е. Мы можем полностью и точно описать данное состояние численно), но у нас мало или не знаю, что мы на самом деле хотим, чтобы агент делал для получения этих наград.

Вот хороший пример:

  • Если бы я хотел заставить агента маневрировать самолетом от вражеского самолета с известными схемами движения за ним, используя наименьшее количество топлива, я бы предпочел использовать ПИД-регулятор .

  • Если бы я хотел, чтобы агент управлял самолетом и сбивал вражеский самолет с достаточным количеством топлива, оставшегося для приземления, но без формального описания того, как вражеский самолет может атаковать (возможно, человеческий эксперт будет пилотировать его в симуляциях против нашего агента) Я бы предпочел RL .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.