定义
基本定义
对数线性模型要解决的问题是:有输入集合 和标签集合 ,对条件概率 ()进行建模。
如在语言模型中, 是词典 , 是单词序列 ()的集合。输入 为 ,标签 为 。
在词性标注中, 是标签集合 , 是上下文 的集合()。
定义 3.1(对数线性模型):
对数线性模型由以下部分组成:
- 可能的输入集合 ;
- 可能的标签集合 ,假设它为有限集;
- 一个正整数 ,它确定了模型中的特征和参数数量;
- 一个函数 ,它把 映射到了其特征向量 ;
- 一个参数向量
对任意 ,该模型定义了以下条件概率:
其中,, 是 和 的内积(inner product)。 可以被理解为:当参数为 时,在给定 的条件下 的概率。
模型形式
公式 3.1 中,最主要的是求内积 。 越大说明在给定上下文 的情况下, 出现的概率越大。 可以是任意实数,但 只可能是正数。
公式 3.1 的分母是一个归一化项(normalization term),用于保证分布的和为 1,即:
将公式 3.1 拆成以下形式:
公式 3.2 中的第一项 对 是线性的,而第二项 只与 有关,与 无关。所以当 一定时,取对数后的概率 对 是线性的,所以这个模型叫“对数线性模型”。