排序方式: 共有2条查询结果,搜索用时 15 毫秒
1
1.
针对互联网上存在的大量垃圾评论,提出一种基于电阻网络的垃圾评论检测方法,该方法用电阻距离来度量评论之间的上下文语义相似性,把整个评论数据表示成一个电阻网络,把垃圾评论当作该网络上的语义离群点来处理,根据网络节点对电阻网络平均电能消耗的影响,建立电离群因子来度量数据的离群程度,以此来识别垃圾评论。实验证明了该方法的有效性,在多个数据集上取得了较好的效果。 相似文献
2.
提出一种CDCMLDA生成模型来实现跨文本集的话题分析,采用狄利克雷组合多项式模型(Dirichlet Compound Multinomial,DCM)对文本集中词的涌现现象进行建模,把DCM模型和LDA结合起来分析文本集之间话题的差异,采用蒙特卡罗期望最大化方法进行参数推导。在多个实际数据集中通过定性和定量的方法对模型进行评价,实验表明,模型不仅能够发现不同文本集间的异同,而且在模型困惑度指标上相对当前两种主要跨文本集的话题模型具有明显的优势。 相似文献
1