马尔科夫决策过程

大部分强化学习问题都可以被纳入一个叫马尔科夫决策过程(Markov Decision Processes,MDP)的框架下。

马尔科夫性

马尔科夫性(Markov Property)是指系统的下一个状态 仅与当前状态 有关,而与以前的状态无关:

换句话说,给定当前状态,未来状态条件独立于历史状态。一旦当前状态已知,历史信息就会被抛弃。

马尔科夫过程

马尔科夫过程(Markov Processes,MP)由二元组 描述,其中:

  • :状态空间(state space),即状态的有限集
  • :状态转移概率

可以用一个矩阵来描述(状态转移矩阵,state-transition matrix):

其中, 描述了从状态 转移到的下一个状态是状态 的概率。

马尔科夫决策过程

对于强化学习问题,马尔科夫过程不足以描述其特点,因为智能体会通过动作与环境进行交互,并从环境中获得奖励,而马尔科夫过程中不考虑动作和奖励。

马尔科夫决策过程在马尔科夫过程的基础上加入了动作和奖励函数,它由元组 描述,其中:

所以马尔科夫决策过程的状态转移概率是包含了动作这一项的,也就是之前所说的:

在 model-free 设置下,环境是未知的,也就是说我们没有关于 的(全部)信息。