Марковский процесс принятия решений
Перейти к навигации
Перейти к поиску
Марковский процесс принятия решений (англ. Markov decision process (MDP)) — спецификация задачи последовательного принятия решений для полностью наблюдаемой среды с марковской моделью перехода и дополнительными вознаграждениями. Назван в честь Андрея Маркова, служит математической основой для того, чтобы смоделировать принятие решения в ситуациях, где результаты частично случайны и частично под контролем лица, принимающего решения. Сегодня эта спецификация используется во множестве областей, включая робототехнику, автоматизированное управление, экономику и производство.
Определение[править | править код]
Чтобы определить марковский процесс принятия решений, нужно задать 4-кортеж , где
- конечное множество состояний,
- конечное множество действий (часто представляется в виде множеств , доступных из состояния ),
- вероятность, что действие в состоянии во время приведет в состояние ко времени ,
- вознаграждение, получаемое после перехода в состояние из состояния с вероятностью перехода .
См. также[править | править код]
Это заготовка статьи по математике. Вы можете помочь проекту, дополнив её. |