E 级超级计算机故障预测的数据采集方法 |
| |
引用本文: | 胡维,蒋艳凰,刘光明,董文睿.E 级超级计算机故障预测的数据采集方法[J].国防科技大学学报,2016,38(1). |
| |
作者姓名: | 胡维 蒋艳凰 刘光明 董文睿 |
| |
作者单位: | 国防科学技术大学 计算机学院,国防科学技术大学 计算机学院,国防科学技术大学 计算机学院,国防科学技术大学 计算机学院 |
| |
基金项目: | 国家自然科学基金项目(面上项目,重点项目,重大项目),国家863重大专项资助项目 |
| |
摘 要: | 随着超级计算机规模向E级迅速发展,其可靠性面临巨大挑战,基于故障预测的主动容错技术成为提高系统容错能力的有效方法之一。数据采集是故障预测的基础,现有用于超级计算机故障预测的数据采集方法采集数据属性少、开销大,影响了故障预测的准确性和效率。本文面向未来E级超级计算机,提出数据采集框架(Failure Prediction Data Collection Framework, FPDC),能够全面采集与计算结点故障相关的状态数据,采用自适应多层分组数据汇集方法,有效解决了随着系统规模增长数据汇集过程开销过大的问题。在TH-1A超级计算机上的实现和测试表明,该数据采集框架具有开销小,扩展性好的优点,能够适应未来大规模系统故障预测数据采集的需求。
|
关 键 词: | 超级计算机 故障预测 数据采集方法 数据汇集 |
收稿时间: | 4/9/2015 12:00:00 AM |
Data collection for failure prediction toward exascale supercomputers |
| |
Abstract: | |
| |
Keywords: | supercomputer failure prediction data collection method data aggregation |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《国防科技大学学报》浏览原始摘要信息 |
| 点击此处可从《国防科技大学学报》下载免费的PDF全文 |