注意力机制量化剪枝优化方法 |
| |
作者姓名: | 何源宏 姜晶菲 许金伟 |
| |
作者单位: | 国防科技大学 计算机学院,湖南 长沙 410073;国防科技大学 并行与分布计算全国重点实验室,湖南 长沙 410073 |
| |
基金项目: | 重点实验室稳定支持重点资助项目(WDZC20215250103) |
| |
摘 要: | 面向基于注意力机制模型的巨大计算和访存开销问题,研究量化和剪枝协同优化的模型压缩技术,提出针对注意力机制中查询、键、值、概率共四个激活值矩阵的对称线性定点量化方法.同时,提出概率矩阵剪枝方法和渐进式剪枝策略,有效降低剪枝精度损失.在不同数据集上的实验结果表明,针对典型基于注意力机制模型BERT,在较低或者没有精度损失的情况下该优化方法可达到4 位或8 位定点量化、0.93~0.98的稀疏度,大幅度降低模型计算量,为加速量化稀疏模型的推理奠定良好的基础.
|
关 键 词: | 自然语言处理 注意力机制 量化 剪枝 |
收稿时间: | 2022-10-17 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《国防科技大学学报》浏览原始摘要信息 |
|
点击此处可从《国防科技大学学报》下载免费的PDF全文 |
|