含隐变量的图模型的参数学习（EM 算法）

有些时候 $X$ 中的变量有很复杂的依赖关系，直接建模 $p (x)$ 会很困难，这时通常会引入隐变量 $z$ 来简化模型。如果图模型中包含隐变量，即有部分变量是不可观测的，这时就需要用 EM 算法（Expectation Maximum，期望最大化算法）来进行参数估计。

下图为带隐变量的贝叶斯网络的图模型结构，矩形表示其中的变量重复 $N$ 次（因为数据集中有 $N$ 个样本）：

latent variable

边缘似然

令 $X$ 为可观测变量集合， $Z$ 为隐变量集合。由于隐变量不可观测，因此一般改用边缘分布（也就是显变量的分布）的最大似然为目标函数。

样本 $x$ 的边缘似然函数（Marginal Likelihood）为：

$p_{θ} (x) = z \sum p_{θ} (x, z) = z \sum p_{θ} (x ∣ z) p_{θ} (z)$

边缘似然也称为证据（evidence）。

给定 $N$ 个训练样本 $D = {x^{(n)}}_{n = 1}^{N}$ ，其对数边缘似然函数为：

$L (D; θ) = \frac{1}{N} n = 1 \sum N lo g p_{θ} (x^{(n)}) = \frac{1}{N} n = 1 \sum N lo g z \sum p_{θ} (x^{(n)}, z) = \frac{1}{N} n = 1 \sum N lo g z \sum p_{θ} (x^{(n)} ∣ z) p_{θ} (z)$

ELBO

上式第三步意味着我们要对所有可能的 $z$ 求和（或积分），除非 $p_{θ} (x, z)$ 的形式非常简单，否则这在很多情况下是 intractable 的。因此，为了计算 $lo g p_{θ} (x)$ ，我们引入一个额外的变分函数（variational function） $q (z)$ ， $q (z)$ 是一个定义在隐变量 $Z$ 上的分布：

$lo g p_{θ} (x) = lo g z \sum q (z) \frac{p _{θ} ( x , z )}{q ( z )} = lo g E_{q (z)} [\frac{p _{θ} ( x , z )}{q ( z )}] \geq E_{q (z)} [lo g \frac{p _{θ} ( x , z )}{q ( z )}] （詹森不等式） = z \sum q (z) lo g \frac{p _{θ} ( x , z )}{q ( z )} ≜ ELBO_{θ} (q, x)$

$ELBO_{θ} (q, x)$ 为样本 $x$ 的对数边缘似然函数 $lo g p_{θ} (x)$ 的下界，称为证据下界（Evidence Lower Bound，ELBO）。

其中，詹森不等式（Jensen Inequlity）指，对于下凸函数 $g$ ，『期望的函数大于等于函数的期望』一定成立，即：

$g (E [X]) \geq E [g (X)]$

当且仅当 $q (z) = p_{θ} (z ∣ x)$ 时，等号成立，即 $lo g p_{θ} (x) = ELBO_{θ} (q, x)$ 。

证明过程如下（《神经网络与深度学习》习题 11-4，不想看证明的话跳过就好）：

显然，当且仅当 $\frac{p _{θ} ( x , z )}{q ( z )}$ 的比值为一个常数时，等号成立：

$\frac{p _{θ} ( x , z )}{q ( z )} = c (1)$

$\Rightarrow p_{θ} (x, z) = c \cdot q (z)$

$\Rightarrow \int_{z} p_{θ} (x, z) d z = \int_{z} c \cdot q (z) d z$

其中 $\int_{z} p_{θ} (x, z) d z$ 可以看作是 $p_{θ} (x)$ 的边缘概率； $\int_{z} c \cdot q (z) d z$ 可以看作是 $c$ 的边缘概率，从而：

$p_{θ} (x) = c (2)$

将式 (2) 带入式 (1) 得：

$q (z) = \frac{p _{θ} ( x , z )}{p _{θ} ( x )} = p_{θ} (z ∣ x) (3)$

注意，式 (3) 中的 $θ$ 是一个常数值。比如当 EM 算法的第 $t$ 步 $ar g max_{θ_{t}} p_{θ_{t + 1}} (x)$ 时，式 (3) 中的 $θ$ 就是 $t - 1$ 步时的参数 $θ_{t}$ 。

这样，最大化对数边缘似然函数 $lo g p_{θ} (x)$ 的过程可以分解为两个步骤：

找到近似分布 $q (z)$ 使得 $lo g p_{θ} (x) = ELBO_{θ} (q, x)$
寻找能最大化 $ELBO_{θ} (q, x)$ 的参数 $θ$

这就是 EM 算法。

EM 算法

EM 算法具体分为 E 步（expectation step）和 M 步（maximization step），这两步不断重复，通过迭代的方法来最大化边缘似然。在第 $t$ 步更新时，E 步和 M 步分别为：

E 步：固定参数 $θ_{t}$ ，找到一个分布 $q_{t + 1} (z)$ 使得证据下界 $ELBO_{θ_{t}} (q, x)$ 等于 $lo g p_{θ_{t}} (x)$
M 步：固定 $q_{t + 1} (z)$ ，找到一组参数使得证据下界 $ELBO_{θ_{t}} (q_{t + 1}, x)$ 最大，即：

$θ_{t + 1} = ar g θ max ELBO_{θ} (q_{t + 1}, x) = ar g θ max z \sum q_{t + 1} (z) lo g \frac{p _{θ} ( x , z )}{q _{t + 1} ( z )} = ar g θ max z \sum p_{θ_{t}} (z ∣ x) lo g \frac{p _{θ} ( x , z )}{p _{θ_{t}} ( z ∣ x )} = ar g θ max z \sum p_{θ_{t}} (z ∣ x) lo g p_{θ} (x, z)$

$θ_{t}$ 为上一时刻的参数， $p_{θ_{t}} (z ∣ x)$ 是 $z$ 的后验分布。

从 KL 散度来理解

对数边缘似然 $lo g p_{θ} (x)$ 可以分解为：

$p_{θ} (x, z) = p_{θ} (z ∣ x) p_{θ} (x)$

$\Rightarrow lo g p_{θ} (x, z) = lo g p_{θ} (z ∣ x) + lo g p_{θ} (x)$

$\Rightarrow lo g p_{θ} (x) = lo g p_{θ} (x, z) - lo g p_{θ} (z ∣ x)$

两边同时对隐变量分布 $q (z)$ 求期望，左边：

$z \sum q (z) lo g p_{θ} (x) = lo g p_{θ} (x) z \sum q (z) = lo g p_{θ} (x)$

右边可以先写成：

$lo g p_{θ} (x, z) - lo g p_{θ} (z ∣ x)$

$= (lo g p_{θ} (x, z) - lo g q (z)) - (lo g p_{θ} (z ∣ x) - lo g q (z))$

$= lo g \frac{p _{θ} ( x , z )}{q ( z )} - lo g \frac{p _{θ} ( z ∣ x )}{q ( z )}$

则右边对隐变量分布 $q (z)$ 求期望：

$z \sum q (z) (lo g p_{θ} (x, z) - lo g p_{θ} (z ∣ x))$

$= z \sum q (z) lo g \frac{p _{θ} ( x , z )}{q ( z )} - z \sum q (z) lo g \frac{p _{θ} ( z ∣ x )}{q ( z )}$

$= ELBO_{θ} (q, x) + KL (q (z) ∥ p_{θ} (z ∣ x))$

合起来：

$lo g p_{θ} (x) = ELBO_{θ} (q, x) + KL (q (z) ∥ p_{θ} (z ∣ x))$

其中， $KL (q (z) ∥ p_{θ} (z ∣ x))$ 为隐变量分布 $q (z)$ 和后验分布 $p_{θ} (z ∣ x)$ 的 KL 散度。

KL 散度一定 $\geq 0$ ，且当且仅当 $q (z) = p_{θ} (z ∣ x)$ 时， $KL (q (z) ∥ p_{θ} (z ∣ x)) = 0$ ，从而使得 $ELBO_{θ} (q, x) = lo g p_{θ} (x)$ 。

所以 $ELBO_{θ} (q, x)$ 为 $lo g p_{θ} (x)$ 的一个下界。因此当逐步提高这个下界时，相当于增大了 $lo g p_{θ} (x)$ ，所以要对 ELBO 求期望最大化：

$\hat{θ} = ar g θ max ELBO_{θ} (q, x)$

收敛性证明

直觉上的证明

假设在第 $t$ 步时的模型参数为 $θ_{t}$ 。

E 步：找到一个分布 $q_{t + 1} (z)$ 使得 $lo g p_{θ_{t}} (x) = ELBO_{θ_{t}} (q_{t + 1}, x)$
M 步：固定 $q_{t + 1} (z)$ ，找到一组参数 $θ_{t + 1}$ 使得 $ELBO_{θ_{t + 1}} (q_{t + 1}, x)$ 最大，则有 $ELBO_{θ_{t + 1}} (q_{t + 1}, x) \geq ELBO_{θ_{t}} (q_{t + 1}, x)$

因此有：

$lo g p_{θ_{t + 1}} (x) \geq ELBO_{θ_{t + 1}} (q_{t + 1}, x) \geq ELBO_{θ_{t}} (q_{t + 1}, x) = lo g p_{θ_{t}} (x)$

公式上的证明

我觉得直觉上的证明已经很清楚了...所以公式上的证明我就直接放个链接了。

含隐变量的图模型的参数学习（EM 算法）

边缘似然

ELBO

EM 算法

从 KL 散度来理解

收敛性证明

直觉上的证明

公式上的证明

EM 算法在 GMM 中的应用

参考

# 含隐变量的图模型的参数学习（EM 算法）

# 边缘似然

# ELBO

# EM 算法

# 从 KL 散度来理解

# 收敛性证明

# 直觉上的证明

# 公式上的证明

# EM 算法在 GMM 中的应用

# 参考

含隐变量的图模型的参数学习（EM 算法）

边缘似然

ELBO

EM 算法

从 KL 散度来理解

收敛性证明

直觉上的证明

公式上的证明

EM 算法在 GMM 中的应用

参考