Марковский Процесс принятия решения на самом деле имеет отношение к переходу от одного состояния к другому , и в основном используются для планирования и принятия решений .
Теория
Просто повторяя теорию быстро, MDP это:
ПРА = ⟨ S, А , Т, R , γ⟩
SAТпr ( s)'| с,а)рγ
Таким образом, чтобы использовать его, вам нужно иметь предопределенный:
- Штаты : они могут относиться к, например , сетки карты в робототехнике, или, например , дверь открыта и дверь закрыта .
- Действия : фиксированный набор действий, таких как, например, движение на север, юг, восток и т. Д. Для робота или открытие и закрытие двери.
- Вероятности перехода : вероятность перехода из одного состояния в другое при заданном действии. Например, какова вероятность открытой двери, если действие открыто . В идеальном мире последний мог бы быть 1.0, но если бы он был роботом, он не смог бы правильно обращаться с дверной ручкой. Другим примером в случае движущегося робота было бы действие на север , которое в большинстве случаев приводило бы его в ячейку сетки к северу от него, но в некоторых случаях могло бы переместиться слишком сильно и, например, достигнуть следующей ячейки.
- Награды : они используются для планирования. В случае с сеткой, мы можем перейти к определенной ячейке, и вознаграждение будет выше, если мы приблизимся. В случае с примером двери открытая дверь может дать высокую награду.
Как только MDP определен, политику можно узнать, выполнив Value Iteration или Policy Iteration, которые вычисляют ожидаемое вознаграждение для каждого из состояний. Затем политика предоставляет каждому государству наилучшее (с учетом модели MDP) действие, которое необходимо выполнить.
Таким образом, MDP полезен, когда вы хотите спланировать эффективную последовательность действий, в которой ваши действия не всегда могут быть эффективными на 100%.
Ваши вопросы
Можно ли его использовать для предсказания вещей?
Я бы назвал это планированием, а не прогнозированием, например, регрессией .
Если да, то какие вещи?
Смотрите примеры .
Может ли он найти шаблоны среди бесконечных объемов данных?
| S|
Что этот алгоритм может сделать для меня.
Смотрите примеры .
Примеры применения MDP
- Белый, DJ (1993) упоминает большой список приложений:
- Сбор урожая: сколько представителей населения должно быть оставлено для размножения.
- Сельское хозяйство: сколько нужно сажать в зависимости от погоды и состояния почвы.
- Водные ресурсы: поддерживать правильный уровень воды в водоемах.
- Осмотр, техническое обслуживание и ремонт: когда заменить / осмотреть в зависимости от возраста, состояния и т. Д.
- Закупка и производство: сколько производить в зависимости от спроса.
- Очереди: сократить время ожидания.
- ...
- Финансы: решаем, сколько инвестировать в акции.
- Робототехника:
И есть еще несколько моделей. Еще более интересной моделью является частично наблюдаемый марковский процесс принятия решений, в котором состояния не полностью видны, а вместо этого используются наблюдения, чтобы получить представление о текущем состоянии, но это выходит за рамки этого вопроса.
Дополнительная информация
Стохастический процесс является марковским (или обладает свойством Маркова), если условное распределение вероятности будущих состояний зависит только от текущего состояния, а не от предыдущих (т.е. не от списка предыдущих состояний).