主动学习与自学习的中文命名实体识别 |
| |
作者姓名: | 钟志农 刘方驰 吴烨 伍江江 |
| |
作者单位: | 国防科技大学 电子科学与工程学院,国防科技大学 电子科学与工程学院,国防科技大学 电子科学与工程学院,国防科技大学电子科学与工程学院 |
| |
基金项目: | 国家高技术研究发展计划(863计划)主题项目(2011AA120300);湖南省自然科学基金资助项目(11JJ4028 ) |
| |
摘 要: | 命名实体识别是信息抽取中的一项基础性任务,如何利用丰富的未标注语料来提高实体识别的指标是该领域一个重要的研究方向。基于条件随机场提出一种将主动学习与自学习相结合的方法——SACRF,通过设置置信度函数和2-Gram频度阈值来选取样本,并采用人工与自动相结合的方式进行标注来扩展训练语料。实验表明,该方法在提高实体识别的精确率和召回率的同时,能够显著地降低人工标注的工作量。
|
关 键 词: | 主动学习 自学习 条件随机场 命名实体识别 |
收稿时间: | 2013-10-11 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《国防科技大学学报》浏览原始摘要信息 |
|
点击此处可从《国防科技大学学报》下载免费的PDF全文 |
|