贝尔曼方程

贝尔曼方程（Bellman Equation）把值函数分解为了当前奖励（immediate reward）+ 未来奖励的折扣总和（discounted sum of future rewards）。

贝尔曼方程是一个递归的形式。

动作值函数的贝尔曼方程

$Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]$

证明过程

易证：

$G_{t} = k = 0 \sum γ^{k} R_{t + k} = R_{t} + γ \cdot G_{t + 1}$

那么有：

$Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}, \dots} [G_{t} ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{S_{t + 1}, A_{t + 1}, \dots} [R_{t} + γ \cdot G_{t + 1} ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{S_{t + 1}, A_{t + 1}, \dots} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]$

最后一步是因为动作值函数 $Q_{π} (S_{t + 1}, A_{t + 1})$ 求的就是 $G_{t + 1}$ 的期望。

状态值函数的贝尔曼方程

$V_{π} (s_{t}) = E_{A_{t}, S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1}) ∣ S_{t} = s_{t}]$

证明过程

由状态值函数的定义： $V_{π} (S_{t}) = E_{A_{t}} [Q_{π} (S_{t}, A_{t})]$ 得到：

$Q_{π} (S_{t}, A_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]$

$V_{π} (S_{t}) = E_{A_{t}} [Q_{π} (S_{t}, A_{t})] = E_{A_{t}, S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1}) ∣ S_{t} = s_{t}]$

另一种形式

贝尔曼方程可以表达为另一种形式。

$V_{π} (s) = a \in A \sum π (a ∣ s) Q_{π} (s, a) (1)$

$Q_{π} (s, a) = R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{π} (s^{'}) (2)$

把式 (2) 代入式 (1)：

$V_{π} (s) = a \in A \sum π (a ∣ s) (R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{π} (s^{'})) (3)$

把式 (1) 代入式 (2)：

$Q_{π} (s, a) = R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} a \in A \sum π (a^{'} ∣ s^{'}) Q_{π} (s^{'}, a^{'}) (4)$

式 (3) 和式 (4) 就是贝尔曼方程的另一种形式。

贝尔曼最优方程

之前定义了最优状态值函数 $V_{*} (s)$ 和最优动作值函数 $Q_{*} (s, a)$ ，如果只关注最优值：

$V_{*} (s) = a \in A \sum π (a ∣ s) Q_{*} (s, a)$

$Q_{*} (s, a) = R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{*} (s^{'})$

$V_{*} (s) = a \in A \sum π (a ∣ s) (R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{*} (s^{'})) (5)$

$Q_{*} (s, a) = R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} a \in A \sum π (a^{'} ∣ s^{'}) Q_{*} (s^{'}, a^{'}) (6)$

式 (5) 和式 (6) 就是贝尔曼最优方程（Bellman Optimality Equation）。

总结

贝尔曼方程是大多数强化学习算法的理论基础。

可以看到，如果环境是已知的，即 $R (s, a)$ 和 $P_{s s^{'}}^{a}$ 已知，这就变成了一个动态规划问题。但在很多问题中，我们并不知道这两个函数，所以不能直接通过贝尔曼方程来求解。

# 贝尔曼方程

# 动作值函数的贝尔曼方程

# 状态值函数的贝尔曼方程

# 另一种形式

# 贝尔曼最优方程

# 总结

贝尔曼方程

动作值函数的贝尔曼方程

状态值函数的贝尔曼方程

另一种形式

贝尔曼最优方程

总结