基本概念

概述

现在有一个智能体（agent）和一个复杂不确定的环境（environment）。智能体会从环境里面获取到当前状态（state）（ $s \in S$ ），根据这个状态，智能体会根据某种策略 $π$ （policy）来输出一个动作（action）（ $a \in A$ ）。然后环境会根据智能体采取的动作和奖励函数 $R$ ，返回给智能体一个奖励（reward）（ $r \in R$ ）。环境会怎么对动作进行反馈是由一个模型（model）来定义的，这个模型可能是已知的，也可能是未知的。然后智能体会根据转移概率 $P$ （transition function）转移到一个新的状态。

强化学习（Reinforcement Learning）的目标就是，让智能体通过不断的尝试和获得反馈，学习到一个最优策略，从而最大化它能获得的累计奖励 $G$ （cumulative future reward），也被叫做回报（return）。

Model-Based / Model-Free

首先是 model-free 和 mode-based 的区别，需要理解的是强化学习中的 model 跟智能体没有关系，model 只跟环境有关，它决定了奖励函数 $R$ 和转移概率 $P$ 。因此：

model-based：已知环境，即已知转移概率和奖励函数，那么可以用动态规划（dynamic programming）来解决问题
model-free：未知环境

回合与轨迹

对于时间步 $t = 1, 2, \dots, T$ ，轨迹（trajectory）是指一个回合（episode）中，智能体观测到的所有的状态、动作、奖励序列：

$s_{1}, a_{1}, r_{2}, s_{2}, a_{2}, \dots, s_{T}$

状态转移概率与奖励函数

model 是对环境的描述，它包含两个部分：转移概率 $P$ 与奖励函数 $R$ 。

假设智能体目前处于状态 $s$ ，然后它采取了一个动作，并转移到了状态 $s^{'}$ ，并得到了一个奖励 $r$ ，我们可以把这一步表示为： $(s, a, s^{'}, r)$ 。

转移概率 $P$ 是一个条件概率密度函数，它表示了在状态 $s$ 采取动作 $a$ ，能转移到状态 $s^{'}$ 并得到奖励 $r$ 的概率：

$P (s^{'}, r ∣ s, a) = P (S_{t + 1} = s^{'}, R_{t + 1} = r ∣ S_{t} = s, A_{t} = a)$

而状态转移概率 $P_{s s^{'}}^{a}$ （state-transition function）消去了奖励这一项，表示在状态 $s$ 采取动作 $a$ ，能转移到状态 $s^{'}$ 的概率：

$P_{s s^{'}}^{a} = P (s^{'} ∣ s, a) = P (S_{t + 1} = s^{'} ∣ S_{t} = s, A_{t} = a) = r \in R \sum P (s^{'}, r ∣ s, a)$

奖励函数 $R$ 估计了在状态 $s$ 采取动作 $a$ 后能得到的奖励的期望：

$R (s, a) = E (R_{t + 1} ∣ S_{t} = s, A_{t} = a) = r \in R \sum r s^{'} \in S \sum P (s^{'}, r ∣ s, a)$

回报与折扣

强化学习最大化的是回报 $G$ ，也叫累计奖励。回报是从当前时刻 $t$ 开始到一回合结束的所有折扣奖励的总和：

$G_{t} = R_{t + 1} + γ R_{t + 2} + \dots = k = 0 \sum \infty γ^{k} R_{t + k + 1}$

$γ \in (0, 1]$ 是一个超参数折扣因子（discount factor），它会给未来的奖励打折扣，越久远的未来的奖励的折扣越大，因为：

越是未来的奖励不确定性越大（比如股市）
未来的奖励对当下并没有用，比如你现在给我一万块，或是一年后给我一万块，那我肯定选择现在就把一万块拿了
不打折扣的话就需要考虑无限的时间步
有些马尔可夫过程是带环的，它并没有终结的时候，我们想避免这个无穷的奖励

策略函数与值函数

策略函数和状态值函数都是在强化学习中需要学习的东西。

策略函数

策略函数 $π (s_{t})$ （一个条件概率密度函数）会控制智能体根据当前状态 $s_{t}$ 来选择最优动作，从而最大化累计奖励（即回报）。需要注意的是最大化的是累积奖励而不是当前奖励。

策略函数可能是随机策略（stochastic policy function），也可能是确定策略（deterministic policy function）：

随机策略： $π (a ∣ s) = P [A = a ∣ S = s]$
确定策略： $π (s) = a$

动作值函数

之前已经给出了回报 $G$ 的定义，它是 $t$ 时刻之后所有奖励的加权和。但在 $t$ 时刻我们并不知道 $G_{t}$ 的值，此时 $G_{t}$ 仍然是个随机变量，它的随机性来源于 $t$ 时刻之后的状态和动作 $S_{t + 1}, A_{t + 1}, \dots$ ，而这些状态和动作是有 $π$ 决定的。

因此动作值函数（action-value function，“Q-value”）会对 $G_{t}$ 关于变量 $S_{t + 1}, A_{t + 1}, \dots$ 求条件期望：

$Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}, \dots} [G_{t} ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{π} [G_{t} ∣ S_{t} = s_{t}, A_{t} = a_{t}]$

动作值函数依赖于当前状态 $s_{t}$ 、当前动作 $a_{t}$ 和策略 $π$ 。

能让动作值函数最大的策略就是最优策略：

$π_{*} = ar g π max Q_{π} (s_{t}, a_{t})$

还可以定义一个最优动作值函数：

$Q_{*} (s_{t}, a_{t}) = π max Q_{π} (s_{t}, a_{t})$

显然有：

$Q_{π_{*}} (s_{t}, a_{t}) = Q_{*} (s_{t}, a_{t})$

状态值函数

每个状态 $s_{t}$ 还有一个对应的状态值函数 $V_{π} (s_{t})$ （state-value function），它是动作值函数对当前动作 $A_{t}$ 求期望：

$V_{π} (s_{t}) = E_{A_{t} \sim π (s_{t})} [Q_{π} (s_{t}, A_{t})] = a \in A \sum Q_{π} (s_{t}, a) π (a ∣ s_{t})$

状态值函数 $V_{π} (s_{t})$ 只依赖于策略 $π$ 和当前状态 $s_{t}$ ，不依赖于动作，因此它评估了策略 $π$ 和当前状态 $s_{t}$ 的好坏。

能让状态值函数最大的策略就是最优策略：

$π_{*} = ar g π max V_{π} (s_{t})$

最优状态值函数：

$V_{*} (s_{t}) = π max V_{π} (s_{t})$

显然有：

$V_{π_{*}} (s_{t}) = V_{*} (s_{t})$

优势函数

动作值函数减状态值函数就是优势函数（advantage function）：

$A_{π} (s_{t}, a_{t}) = Q_{π} (s_{t}, a_{t}) - V_{π} (s_{t})$

# 基本概念

# 概述

# Model-Based / Model-Free

# 回合与轨迹

# 状态转移概率与奖励函数

# 回报与折扣

# 策略函数与值函数

# 策略函数

# 动作值函数

# 状态值函数

# 优势函数