E级超级计算机故障预测的数据采集方法 |
| |
作者姓名: | 胡维 蒋艳凰 刘光明 董文睿 崔新武 |
| |
作者单位: | 1.国防科技大学 计算机学院, 湖南 长沙 410073; 2.国家超级计算天津中心, 天津 300457,1.国防科技大学 计算机学院, 湖南 长沙 410073,1.国防科技大学 计算机学院, 湖南 长沙 410073; 2.国家超级计算天津中心, 天津 300457,1.国防科技大学 计算机学院, 湖南 长沙 410073; 2.国家超级计算天津中心, 天津 300457,3.中国人民解放军95942部队, 湖北 武汉 430313 |
| |
基金项目: | 国家自然科学基金资助项目(61272141,61120106005);国家863计划资助项目(2012AA01A301) |
| |
摘 要: | 面向未来E级超级计算机,提出用于故障预测的数据采集框架,能够全面采集与计算结点故障相关的状态数据。采用自适应多层分组数据汇集方法,有效解决随着系统规模增长数据汇集过程开销过大的问题。在TH-1A超级计算机上的实现和测试表明,该数据采集框架具有开销小、扩展性好的优点,能够满足未来大规模系统故障预测数据采集的需求。
|
关 键 词: | 超级计算机;故障预测;数据采集方法;数据汇集 |
收稿时间: | 2015-04-09 |
本文献已被 CNKI 等数据库收录! |
| 点击此处可从《国防科技大学学报》浏览原始摘要信息 |
|
点击此处可从《国防科技大学学报》下载免费的PDF全文 |
|