При разработке решений таких проблем, как «Лунный корабль» в OpenAIGym , обучение с подкреплением является заманчивым средством предоставления агенту адекватного контроля действий для успешного приземления.
Но в каких случаях алгоритмы системы управления, такие как ПИД-регуляторы , могли бы выполнять только адекватную работу, если не лучше, чем обучение с подкреплением?
Такие вопросы, как этот , отлично справляются с теорией этого вопроса, но мало что делают для практической составляющей.
Как инженер по искусственному интеллекту, какие элементы проблемной области должны указывать мне на то, что ПИД-регулятора недостаточно для решения проблемы, и вместо этого следует использовать алгоритм обучения подкреплению (или наоборот)?