Реальные примеры марковских процессов принятия решений

Я смотрел много обучающих видео, и они выглядят одинаково. Вот этот, например: https://www.youtube.com/watch?v=ip4iSMRW5X4

Они объясняют состояния, действия и вероятности, которые в порядке. Человек объясняет это хорошо, но я просто не могу понять, для чего это будет использоваться в реальной жизни. Я еще не сталкивался ни с одним списком. Самый распространенный вид шахмат - это шахматы.

Можно ли его использовать для предсказания вещей? Если да, то какие вещи? Может ли он найти шаблоны среди бесконечных объемов данных? Что этот алгоритм может сделать для меня.

Бонус: Также кажется, что MDP - это все о переходе из одного штата в другой, это правда?

markov-process

— Карл Моррисон
источник

Марковский Процесс принятия решения на самом деле имеет отношение к переходу от одного состояния к другому , и в основном используются для планирования и принятия решений .

Теория

Просто повторяя теорию быстро, MDP это:

MDP = ⟨ S, A, T, R, γ ⟩

$\text{MDP} = \langle S,A,T,R,\gamma \rangle$

$S$ $A$ $T$ $Pr(s'|s, a)$ $R$ $\gamma$

Таким образом, чтобы использовать его, вам нужно иметь предопределенный:

Штаты : они могут относиться к, например , сетки карты в робототехнике, или, например , дверь открыта и дверь закрыта .
Действия : фиксированный набор действий, таких как, например, движение на север, юг, восток и т. Д. Для робота или открытие и закрытие двери.
Вероятности перехода : вероятность перехода из одного состояния в другое при заданном действии. Например, какова вероятность открытой двери, если действие открыто . В идеальном мире последний мог бы быть 1.0, но если бы он был роботом, он не смог бы правильно обращаться с дверной ручкой. Другим примером в случае движущегося робота было бы действие на север , которое в большинстве случаев приводило бы его в ячейку сетки к северу от него, но в некоторых случаях могло бы переместиться слишком сильно и, например, достигнуть следующей ячейки.
Награды : они используются для планирования. В случае с сеткой, мы можем перейти к определенной ячейке, и вознаграждение будет выше, если мы приблизимся. В случае с примером двери открытая дверь может дать высокую награду.

Как только MDP определен, политику можно узнать, выполнив Value Iteration или Policy Iteration, которые вычисляют ожидаемое вознаграждение для каждого из состояний. Затем политика предоставляет каждому государству наилучшее (с учетом модели MDP) действие, которое необходимо выполнить.

Таким образом, MDP полезен, когда вы хотите спланировать эффективную последовательность действий, в которой ваши действия не всегда могут быть эффективными на 100%.

Ваши вопросы

Можно ли его использовать для предсказания вещей?

Я бы назвал это планированием, а не прогнозированием, например, регрессией .

Если да, то какие вещи?

Смотрите примеры .

Может ли он найти шаблоны среди бесконечных объемов данных?

$|S|$

Что этот алгоритм может сделать для меня.

Смотрите примеры .

Примеры применения MDP

Белый, DJ (1993) упоминает большой список приложений:
- Сбор урожая: сколько представителей населения должно быть оставлено для размножения.
- Сельское хозяйство: сколько нужно сажать в зависимости от погоды и состояния почвы.
- Водные ресурсы: поддерживать правильный уровень воды в водоемах.
- Осмотр, техническое обслуживание и ремонт: когда заменить / осмотреть в зависимости от возраста, состояния и т. Д.
- Закупка и производство: сколько производить в зависимости от спроса.
- Очереди: сократить время ожидания.
- ...
Финансы: решаем, сколько инвестировать в акции.
Робототехника:
- Система диалога для взаимодействия с людьми .
- Робот бармен .
- Робот разведка для навигации .
- ..

И есть еще несколько моделей. Еще более интересной моделью является частично наблюдаемый марковский процесс принятия решений, в котором состояния не полностью видны, а вместо этого используются наблюдения, чтобы получить представление о текущем состоянии, но это выходит за рамки этого вопроса.

Дополнительная информация

Стохастический процесс является марковским (или обладает свойством Маркова), если условное распределение вероятности будущих состояний зависит только от текущего состояния, а не от предыдущих (т.е. не от списка предыдущих состояний).

— Agold
источник

Это, вероятно, самый ясный ответ, который я когда-либо видел на Cross Validated.

— Скрытая Маркова Модель

Есть ли шанс, что вы можете исправить ссылки? Некоторые из них кажутся сломанными или устаревшими.

— ComputerScientist

Поэтому любой процесс , который имеет states, actions, transition probabilitiesи rewardsопределено было бы назвать как марковского?

— Сухаил Гупта