生成标注模型
定义
生成模型可以被用于标注问题。令 为所有可能出现的标签的集合,且假设它是一个有限集。则有定义 2.1(生成标注模型,Generative Tagging Models):
假设有限集 是所有单词的集合,有限集 是所有标签的集合。定义 为所有序列对 () 的集合。则生成标注模型是一个函数 ,满足:
对任意 ,
也就是说 是序列对的概率分布。
从 到 的映射的定义为:
也就是说模型的输出结果是概率最高的标注序列。
存在的问题
现在有三个重要的问题:
- 如何定义
- 如何从训练集中估计参数
- 怎样高效的找出
下一节将讨论用三元隐马尔科夫模型(Trigram Hidden Markov Models)来解决这些问题。