摘 要: | 基于类的语言模型被认为是解决数据稀疏的有效方法。众所周知,自然语言中存在着大量一词多义、一词多性的现象,这在传统基于硬聚类的词类划分下无法表达。而基于软聚类的类语言模型采用大数定律,依然没有摆脱在最终计算时一词一类的思维模式。为解决此类问题,基于词的软聚类,结合模糊数学,提出了词的隶属度,以及基于隶属度的模糊类语言模型。该模型提高了传统类语言模型对训练语料中历史信息的利用率,较基于词的语言模型能给未出现词对提供更多的类内参考数据。设计了一个小语料集的实验,结果表明在数据稀疏条件下,较传统的类语言模型有更好的效果。
|