生成模型和噪声通道模型

本节将标注问题视为监督学习(Supervised Learning)问题。

生成模型

生成模型(Generative Models)是一个重要的监督学习模型。监督学习的定义是,假设有一个训练集 ,每个样本都包含一个输入 和一个标签 。令 为输入集合, 为标签集合。我们的目标是从训练集中学习出一个映射函数

NLP 中的许多问题都是监督学习问题。如在标注问题中, 即序列集合 即标签集合 ;在机器翻译(machine translation)中,每个输入为源语言(如中文)中的一个句子,每个标签为其对应的目标语言(如英文)的句子。

 

一种确定函数 的方法是,定义一个条件概率模型(conditional model):

模型的参数需要从训练集中估计出来。

如果输入测试数据 ,模型的输出(预测的标签)为:

即,将最可能的预测标签 作为模型的输出。 越接近实际的条件分布, 的效果越好。

 

另一种方法是定义一个生成模型。生成模型对联合概率(joint probability)进行建模而不是直接估计条件分布

模型的参数也需要从训练集 )中估计出来。

可以进一步把 分解为:

然后分别估计模型 。这两个模型的意义是:

  • 是标签 先验概率分布(prior probability distribution)
  • 是在给定标签 的前提下,生成 的概率

给定一个生成模型,我们可以使用贝叶斯规则(Bayes rule)来推导出任意 的条件概率

给定输入的测试样本 ,模型的输出 可以被推导为:

公式 2.1 是贝叶斯规则。公式 2.2 是因为分母 无关,是一个常数,可以忽略掉,所以我们不需要去计算

噪声通道模型

把联合概率分解为 的模型通常被称为噪声通道模型(Noisy Channel Model)。当输入一个测试样本 时,我们假设模型已经生成了两个步骤:

  1. 按概率 选择了一个标签
  2. 按分布 生成样本

被称为 channel modeldistortion model,它将 作为输入,将 作为输出。对于其他的任务,它的功能分别为:

  • 对于拼写纠错(spelling correction), 把单词映射到它们可能的错误拼写;
  • 对于语音识别(speech recognition), 把单词或音位(phonemes)映射到它们对应的声波波形(acoustic waveforms);
  • 对于机器翻译(machine translation), 把目标语言的单词或短语(phrases)映射到它们对应的源语言;

被称为 source modellanguage model