贝尔曼方程

贝尔曼方程(Bellman Equation)把值函数分解为了当前奖励(immediate reward)+ 未来奖励的折扣总和(discounted sum of future rewards)。

贝尔曼方程是一个递归的形式。

动作值函数的贝尔曼方程

动作值函数的贝尔曼方程

证明过程

易证:

那么有:

最后一步是因为动作值函数 求的就是 的期望。

状态值函数的贝尔曼方程

状态值函数的贝尔曼方程

证明过程

状态值函数的定义 得到:

另一种形式

贝尔曼方程可以表达为另一种形式。

bellman equation 1


bellman equation 2


bellman equation 3

把式 (2) 代入式 (1):


bellman equation 4

把式 (1) 代入式 (2):


式 (3) 和式 (4) 就是贝尔曼方程的另一种形式。

贝尔曼最优方程

之前定义了最优状态值函数 和最优动作值函数 ,如果只关注最优值:

式 (5) 和式 (6) 就是贝尔曼最优方程(Bellman Optimality Equation)。

总结

贝尔曼方程是大多数强化学习算法的理论基础。

可以看到,如果环境是已知的,即 已知,这就变成了一个动态规划问题。但在很多问题中,我们并不知道这两个函数,所以不能直接通过贝尔曼方程来求解。