参数学习

损失函数

损失函数用交叉熵损失：

$L (y, \overset{y}{^}) = - y^{⊤} lo g \overset{y}{^}$

其中 $y \in {0, 1}^{C}$ 为真实标签的 one-hot 向量， $\overset{y}{^}$ 为模型输出。

假设训练集为 $D = {(x^{(n)}, y^{(n)})}_{n = 1}^{N}$ ，对于样本 $x^{(n)}$ ，网络的输出为 $\overset{y}{^}^{(n)}$ 。则在整个数据集上的代价函数为：

$J (w, b) = \frac{1}{N} n = 1 \sum N L (y^{(n)}, \overset{y}{^}^{(n)}) + \frac{1}{2} λ ∥ w ∥_{2}^{2}$

其中：

$w, b$ ：网络中的权重矩阵和偏置向量
$\frac{1}{2} λ ∥ w ∥_{2}^{2}$ ： $l_{2}$ 正则化项，用来防止过拟合， $∥ w ∥_{2}^{2}$ 是一个 $l_{2}$ 范数
$λ$ ：正则化系数（超参数），用于控制控制正则化强弱， $λ$ 越大， $w$ 就会越接近于 0

梯度下降

参数可以通过梯度下降法来进行学习。在梯度下降法的每次迭代中，第 $l$ 层的参数 $w^{(n)}$ 和 $b^{(n)}$ 的更新方式为：

$w^{(l)} b^{(l)} \leftarrow w^{(l)} - α \cdot \frac{\partial J ( w , b )}{\partial w ^{(l)}} = w^{(l)} - α (\frac{1}{N} n = 1 \sum N (\frac{\partial L ( y ^{(n)} , y ^ ^{(n)} )}{\partial w ^{(l)}}) + λ w^{(l)}) \leftarrow b^{(l)} - α \cdot \frac{\partial J ( w , b )}{\partial b ^{(l)}} = b^{(l)} - α (\frac{1}{N} n = 1 \sum N \frac{\partial L ( y ^{(n)} , y ^ ^{(n)} )}{\partial b ^{(l)}})$

其中 $α$ 为学习率（learning rate）。

反向传播

梯度下降法需要计算损失函数对各参数的偏导（即梯度）。如果直接用链式法则逐一对每个参数求偏导会比较低效，因为有的子表达式会被重复计算很多次。因此神经网络中会用反向传播（back propagation）算法来更高效的计算梯度。

反向传播流程

定义第 $l$ 层神经元的误差项 $δ^{(l)}$ 为：

$δ^{(l)} = \frac{\partial J}{\partial z ^{(l)}} \in R^{M_{l}}$

$δ^{(l)}$ 表示了第 $l$ 层神经元对最终代价的影响，也间接反映了不同神经元对网络能力的贡献程度。

那么反向传播有四条核心公式：

计算输出层的误差项 $δ^{(L)}$ ：

$δ^{(L)} = \nabla_{a} J ⊙ σ^{'} (z^{(L)}) (BP1)$

$\nabla_{a} J$ 是一个向量，它的第 $i$ 个元素为 $\frac{\partial J}{\partial a _{i}^{(L)}}$ 。 $\nabla_{a} J$ 可以理解为代价函数随输出的激活值的变化而变化的速度， $σ^{'} (z^{(L)})$ 可以理解为在 $z^{(L)}$ 处激活函数 $σ$ 变化的速度。

使用下一层的误差项 $δ^{(l + 1)}$ 来计算当前层的误差项 $δ^{(l)}$ ：

$δ^{(l)} = ((w^{(l + 1)})^{⊤} δ^{(l + 1)}) ⊙ σ^{'} (z^{(l)}) (BP2)$

这就是误差的反向传播。反向传播的含义就是：第 $l$ 层的某个神经元的误差项 = 所有与该神经元相连的第 $l + 1$ 层的神经元的误差项的权重和 * 该神经元激活函数的梯度。

计算偏置 $b$ 的梯度：

$\frac{\partial J}{\partial b ^{(l)}} = δ^{(l)} (BP3)$

计算权重 $w$ 的梯度：

$\frac{\partial J}{\partial w ^{(l)}} = δ^{(l)} (a^{(l - 1)})^{⊤} (BP4)$

然后就是按梯度下降法，用算出来的梯度去更新参数。

公式证明

证明一下反向传播的四条核心公式：

BP1

BP1 链式法则一步推出来

BP2

由 $z^{(l + 1)} = w^{(l + 1)} a^{(l)} + b^{(l + 1)}$ ：

$\frac{\partial z ^{(l + 1)}}{\partial a ^{(l)}} = (w^{(l + 1)})^{⊤} \in R^{M_{l} \times M_{l + 1}}$

由 $a^{(l)} = σ (z^{(l)})$ ：

$\frac{\partial a ^{(l)}}{\partial z ^{(l)}} = \frac{\partial σ ( z ^{(l)} )}{\partial z ^{(l)}} = diag (σ^{'} (z^{(l)})) \in R^{M_{l} \times M_{l}}$

$diag (σ^{'} (z^{(l)}))$ 表示一个对角线元素全为 $σ^{'} (z^{(l)})$ ，其他元素全为 0 的矩阵。

因此根据链式法则，第 $l$ 层的误差项为：

$δ^{(l)} = \frac{\partial J}{\partial z ^{(l)}} = \frac{\partial J}{\partial z ^{(l + 1)}} \cdot \frac{\partial z ^{(l + 1)}}{\partial a ^{(l)}} \cdot \frac{\partial a ^{(l)}}{\partial z ^{(l)}} = δ^{(l + 1)} \cdot (w^{(l + 1)})^{⊤} \cdot diag (σ^{'} (z^{(l)})) = ((w^{(l + 1)})^{⊤} δ^{(l + 1)}) ⊙ σ^{'} (z^{(l)}) \in R^{M_{l}}$

BP3

由 $z^{(l)} = w^{(l)} a^{(l - 1)} + b^{(l)}$ ：

$\frac{\partial z ^{(l)}}{\partial b ^{(l)}} = I_{M_{l}} \in R^{M_{l} \times M_{l}}$

$I_{M_{l}}$ 表示 $M_{l} \times M_{l}$ 的单位矩阵。

由链式法则：

$\frac{\partial J}{\partial b ^{(l)}} = \frac{\partial J}{\partial z ^{(l)}} \cdot \frac{\partial z ^{(l)}}{\partial b ^{(l)}} = \frac{\partial J}{\partial z ^{(l)}} = δ^{(l)}$

BP4

由 $z^{(l)} = w^{(l)} a^{(l - 1)} + b^{(l)}$ ：

$\frac{\partial z ^{(l)}}{\partial w _{ij}^{(l)}} = [\frac{\partial z _{1}^{(l)}}{\partial w _{ij}^{(l)}}, \dots, \frac{\partial z _{i}^{(l)}}{\partial w _{ij}^{(l)}}, \dots, \frac{\partial z _{M_{l}}^{(l)}}{\partial w _{ij}^{(l)}}] = [0, \dots, \frac{\partial ( w _{i :}^{(l)} a ^{(l - 1)} + b _{i}^{(l)} )}{\partial w _{ij}^{(l)}}, \dots, 0] = [0, \dots, a_{j}^{(l - 1)}, \dots, 0] \in R^{1 \times M_{l}}$

其中 $w_{i :}^{(l)}$ 为权重矩阵 $w^{(l)}$ 的第 $i$ 行。

由链式法则：

$\frac{\partial J}{\partial w _{ij}^{(l)}} = \frac{\partial J}{\partial z ^{(l)}} \cdot \frac{\partial z ^{(l)}}{\partial w _{ij}^{(l)}} = [δ_{1}^{(l)}, \dots, δ_{i}^{(l)}, \dots, δ_{M_{l}}^{(l)}] [0, \dots, a_{j}^{(l - 1)}, \dots, 0] = δ_{i}^{(l)} a_{j}^{(l - 1)}$

其中 $δ_{i}^{(l)} a_{j}^{(l - 1)}$ 相当于向量 $δ^{(l)}$ 和向量 $a^{(l - 1)}$ 的外积的第 $i, j$ 个元素。因此上式可以写为：

$[\frac{\partial J}{\partial w ^{(l)}}]_{ij} \Rightarrow \frac{\partial J}{\partial w ^{(l)}} = [δ^{(l)} (a^{(l - 1)})^{⊤}]_{ij} = δ^{(l)} (a^{(l - 1)})^{⊤} \in R^{M_{l} \times M_{l - 1}}$

# 参数学习

# 损失函数

# 梯度下降

# 反向传播

# 反向传播流程

# 公式证明

# BP1

# BP2

# BP3

# BP4