基于深度学习的跨语言文本情报分类方法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于深度学习的跨语言文本情报分类方法研究

作者姓名：	殷来祥李志强李元龙

作者单位：	1. 国防大学;2. 中国人民解放军71217部队

摘要：	文本情报分类工作是情报分析领域的基础性工作。目前，文本情报分类工作通常面向单一语言，跨语言文本情报分类研究相对较少。针对跨语言文本情报分类问题，提出了“XLM-R+TextCNN”模型，通过基于大规模多语种语料训练的跨语言预训练模型(XLM-R)生成与具体语言表示形式无关的文本情报向量，将文本向量输入TextCNN模型，获取文本情报的类别特征，实现对跨语言文本情报的分类。以开源国防科技情报为基础，构建了跨语言文本情报分类数据集，并对模型进行了测试。实验表明，该模型在多项对比评测中，取得了不错的成绩，验证了本方法的可行性与有效性。
关键词：	文本情报分类跨语言 XLM-R TextCNN