基于模型的动态规划

对于 model-based 方法而言，环境 $R (s, a)$ 和 $P_{s s^{'}}^{a}$ 是已知的，那么可以直接根据贝尔曼方程用动态规划来计算更新策略。整个过程分为策略评估（policy evaluation）和策略改进（policy improvement）两部分：

策略评估：评估每个状态的 $V$ 值函数

$V_{π} (s) = a \in A \sum π (a ∣ s) (R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{π} (s^{'})) (1)$

策略改进：计算 $Q$ 值函数， $π$ 会按照一定的方法根据 $Q$ 值输出动作（如贪婪法，直接输出 $Q$ 值最大的动作）：

$Q_{π} (s, a) = R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{π} (s^{'}) (2)$

然后不断迭代上述两个步骤，这叫策略迭代（policy iteration）：

$π_{0} 评估 V_{π_{0}} 改进 π_{1} 评估 V_{π_{1}} 改进 π_{2} 评估 \dots 改进 π_{*} 评估 V_{*}$

自举

可以看到，需要用下一个状态 $s^{'}$ 的值函数来更新当前状态 $s$ 的值函数。但 $s^{'}$ 的值函数也是我们估算出来的，相当于要用一个估算去更新同类的估算，这种方法叫自举（bootstrapping）。

TIP

Bootstrapping 的字面意思是：拔自己的鞋带，把自己举起来（这里有一张很形象的图）

策略迭代

线性方程组的迭代解法

对于式 $(1)$ ， $R (s, a)$ 、 $P_{s s^{'}}^{a}$ 和 $γ$ 已知， $π$ 是给定的当前要评估的策略，也已知，唯一的未知数是状态值函数。那么式 $(1)$ 可以看关于状态值函数的线性方程组。

线性方程组的数值求解包括直接法（如高斯消元) 和迭代解法，策略评估中采用了迭代解法中的高斯-赛德尔迭代法：

$V_{k + 1} (s) = a \in A \sum π (a ∣ s) (R (s, a) + γ s^{'} \in S \sum P_{s s^{'}}^{a} V_{k} (s^{'}))$

其中 $k$ 表示第 $k$ 次迭代。

雅克比迭代法

// 有空再写

高斯-赛德尔迭代法

// 有空再写

策略评估

因此用迭代法进行策略评估的流程为：

Init $V_{0} (s) = 0$
Repeat $k = 0, 1, \dots$ :（ $k$ 是第 $k$ 个高斯-赛德尔迭代）
- for every $s \in S$ do:（一次状态扫描）
  - $V_{k + 1} (s) = \sum_{a \in A} π (a ∣ s) (R (s, a) + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} V_{k} (s^{'}))$
Until $V_{k + 1} (s) = V_{k} (s)$

策略改进

这里把策略考虑为确定策略，即 $π (s) = a$ 。那么一个很自然的方法就是用贪婪法（greedy）来更新策略，即直接输出 Q 值最大的动作：

$π^{'} (s) = ar g a \in A max Q_{π} (s, a)$

那么把策略评估和策略改进合起来：

Init $π_{0}$
Repeat $t = 0, 1, \dots$ （ $t$ 是第 $t$ 个时间步）
- 进行策略评估，得到 $V_{π_{t}}$
- for every $s \in S$ do:
  - $π_{t + 1} (s) = ar g max_{a \in A} Q_{π} (s, a)$
Until $π_{k + 1} (s) = π_{k} (s)$

也就是有两个循环，内循环在用高斯-赛德尔迭代法进行策略评估，循环到值函数收敛为止；外循环在更新策略，循环到策略收敛为止。

最优性证明

证明更新后的 $π^{'} (s)$ 一定是更好的策略：

$Q_{π} (s, π^{'} (s)) = a \in A max Q_{π} (s, a) \geq Q_{π} (s, π (s)) = V_{π} (s) (3)$

$V_{π} (s) \leq Q_{π} (s, π^{'} (s)) = E_{π^{'}} [R_{t + 1} + γ V_{π} (s_{t + 1}) ∣ S_{t} = s] \leq E_{π^{'}} [R_{t + 1} + γ Q_{π} (s_{t + 1}, π^{'} (s_{t + 1})) ∣ S_{t} = s] (代入式 3) \leq E_{π^{'}} [R_{t + 1} + γ R_{t + 2} + γ^{2} Q_{π} (s_{t + 2}, π^{'} (s_{t + 2})) ∣ S_{t} = s] (代入式 3) \leq E_{π^{'}} [R_{t + 1} + γ R_{t + 2} + \dots ∣ S_{t} = s] = V_{π^{'}} (s)$

因此策略更新到 $π^{'}$ 后， $V$ 和 $Q$ 在状态 $s$ 的值都比更新前更高。

当更新停止后，有：

$Q_{π} (s, π^{'} (s)) = a \in A max Q_{π} (s, a) = Q_{π} (s, π (s)) = V_{π} (s)$

$\Rightarrow V_{π} (s) = a \in A max Q_{π} (s, a)$

也就是对每个状态 $s$ ，采取的都是最优动作，即这时 $π$ 是最优策略。

值函数迭代

策略迭代会等到 $V$ 收敛后再进行策略改进，而值函数迭代（value iteration）不等 $V$ 收敛，而是评估一次后就进行策略改进：

Init $π_{0}, V_{0} (s) = 0$
Repeat $t = 0, 1, \dots$ （ $t$ 是第 $t$ 个时间步）
- for every $s \in S$ do
  - $V_{t + 1} (s) = max_{a \in A} (R (s, a) + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} V_{t} (s^{'}))$
Until $V_{t + 1} (s) = V_{t} (s)$
Output $π (s) = ar g max_{a \in A} (R (s, a) + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} V_{t} (s^{'}))$

可以看到值函数迭代过程中并没有一个显示的策略。

# 基于模型的动态规划

# 自举

# 策略迭代

# 线性方程组的迭代解法

# 雅克比迭代法

# 高斯-赛德尔迭代法

# 策略评估

# 策略改进

# 最优性证明

# 值函数迭代