首页 | 本学科首页   官方微博 | 高级检索  
     

E级超级计算机故障预测的数据采集方法
作者姓名:胡维  蒋艳凰  刘光明  董文睿  崔新武
作者单位:1.国防科技大学 计算机学院, 湖南 长沙 410073; 2.国家超级计算天津中心, 天津 300457,1.国防科技大学 计算机学院, 湖南 长沙 410073,1.国防科技大学 计算机学院, 湖南 长沙 410073; 2.国家超级计算天津中心, 天津 300457,1.国防科技大学 计算机学院, 湖南 长沙 410073; 2.国家超级计算天津中心, 天津 300457,3.中国人民解放军95942部队, 湖北 武汉 430313
基金项目:国家自然科学基金资助项目(61272141,61120106005);国家863计划资助项目(2012AA01A301)
摘    要:面向未来E级超级计算机,提出用于故障预测的数据采集框架,能够全面采集与计算结点故障相关的状态数据。采用自适应多层分组数据汇集方法,有效解决随着系统规模增长数据汇集过程开销过大的问题。在TH-1A超级计算机上的实现和测试表明,该数据采集框架具有开销小、扩展性好的优点,能够满足未来大规模系统故障预测数据采集的需求。

关 键 词:超级计算机;故障预测;数据采集方法;数据汇集
收稿时间:2015-04-09
本文献已被 CNKI 等数据库收录!
点击此处可从《国防科技大学学报》浏览原始摘要信息
点击此处可从《国防科技大学学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号