生成标注模型

定义

生成模型可以被用于标注问题。令 为所有可能出现的标签的集合,且假设它是一个有限集。则有定义 2.1(生成标注模型,Generative Tagging Models)

假设有限集 是所有单词的集合,有限集 是所有标签的集合。定义 为所有序列对 ) 的集合。则生成标注模型是一个函数 ,满足:

  1. 对任意

也就是说 是序列对的概率分布。

的映射的定义为:

也就是说模型的输出结果是概率最高的标注序列。

存在的问题

现在有三个重要的问题:

  • 如何定义
  • 如何从训练集中估计参数
  • 怎样高效的找出

下一节将讨论用三元隐马尔科夫模型(Trigram Hidden Markov Models)来解决这些问题。