首页 | 本学科首页   官方微博 | 高级检索  
   检索      

一种面向涌现的比较性话题模型
引用本文:谭文堂,王桢文,殷风景,葛斌,肖卫东.一种面向涌现的比较性话题模型[J].国防科技大学学报,2013,35(4):146-155.
作者姓名:谭文堂  王桢文  殷风景  葛斌  肖卫东
作者单位:信息系系统与管理学院六队,信息系系统与管理学院六队,信息系系统与管理学院六队,信息系系统与管理学院军事信息系统系,信息系系统与管理学院军事信息系统系
基金项目:国家自然科学基金项目(面上项目,重点项目,重大项目)湖南省自然科学基金(11JJ5044)
摘    要:提出一种CDCMLDA生成模型来实现跨文本集的话题分析,采用狄利克雷组合多项式模型(Dirichlet Compound Multinomial,DCM)对文本集中词的涌现现象进行建模,把DCM模型和LDA结合起来分析文本集之间话题的差异,采用蒙特卡罗期望最大化方法进行参数推导。在多个实际数据集中通过定性和定量的方法对模型进行评价,实验表明,模型不仅能够发现不同文本集间的异同,而且在模型困惑度指标上相对当前两种主要跨文本集的话题模型具有明显的优势。

关 键 词:比较性文本挖掘  涌现  话题模型  CDCMLDA模型
收稿时间:2012/12/18 0:00:00

A comparative topic model for words burstiness
TAN Wentang,WANG Zhenwen,YIN Fengjing,GE Bin and XIAO Weidong.A comparative topic model for words burstiness[J].Journal of National University of Defense Technology,2013,35(4):146-155.
Authors:TAN Wentang  WANG Zhenwen  YIN Fengjing  GE Bin and XIAO Weidong
Institution:(Science and Technology on Information Systems Engineering Laboratory,National University of Defense Technology,Changsha 410073,China)
Abstract:State-of-the-art cross collections topic models suffer from the important flaw that they can not capture the tendency of words to appear in bursts cross collections. We introduce a topic model CDCMLDA(Cross-collection DCM LDA) that uses Dirichlet compound multinomial (DCM) distributions to model the burstiness phenomenons of words extends over the Latent Dirichlet Allocation (LDA) . A variety of qualitative and quantitative evaluations of CDCMLDA are performed, CDCMLDA not just discover the common and unique aspects on topics, but also show improvements on model perplexity compare to two cross-collection topic models.
Keywords:comparative text mining  burstiness  topic model  CDCMLDA model
本文献已被 CNKI 等数据库收录!
点击此处可从《国防科技大学学报》浏览原始摘要信息
点击此处可从《国防科技大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号