首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
聚合通信广泛应用于高性能计算的研究和工程领域。在大规模的科学和工程计算中,聚合通信开销占据很大比例,有时甚至可达到全部消息传递开销的80%,是高性能计算系统的性能瓶颈。因此提出了一种基于网卡的归约计算硬件卸载机制,通过在网卡上嵌入归约操作逻辑部件,实现了数据在传输过程中的计算,减轻了CPU的负担,降低了通信延迟。通过FPGA平台实现了16节点的归约操作实验,并基于xNetSimPlus模拟器模拟了不同节点规模的归约操作。实验证明,卸载机制能有效减少聚合通信中归约操作的时间,所提支持归约计算的网卡卸载机制最高可以加速归约操作2.71倍。  相似文献   

2.
联合战术信息分发系统JTIDS(Joint Tactical Information Distribution System)系统采用无中心节点的时分多址(TDMA)的网络接入协议,针对TDMA网络时隙同步的要求,各终端必须有统一的时间基准的特点。基于HLA/RTI仿真平台,对网络延迟进行了测试,针对RTI中联邦成员的时间延迟很不稳定的问题提出并实现了一种简单高精度的软件时钟同步方法。该方法既可以降低网络延迟不确定性的影响,又考虑了时钟漂移的影响,具有很好的精度。  相似文献   

3.
随着高性能服务器和超大规模计算机的发展,系统设计者对板上高速互连总线的要求越来越高,如何使芯片间的数据传输延迟更小,提高计算通信比是需要解决的重要问题.论文研究了近年来发展迅速的超传输总线和PCI Express总线的链路层的特点,在此基础上提出了一种64位高速总线链路层体系结构,并对其关键技术进行了研究,设计实现了一...  相似文献   

4.
针对现有技术对高可靠性以太网系统进行监控,具有明显的缺陷和不足之处.提出了一种由用户以太网系统和附加的平衡结构外,总线互连系统组成以太网监控的双独立互连系统.在分析了该系统结构和工作原理的基础上,对系统的可靠度和可用度进行分析计算,为系统的实现提供了重要的依据.  相似文献   

5.
并行是提高计算机性能最主要的方法,随着集成电路生产工艺的不断发展,除了在单个芯片内集成更多的处理器核外,通过集成高速互连网络接口构建多路并行系统一直是提高高性能计算机并行性的主要方式。提出了一种面向多核微处理器的互连接口的设计方案,基于精简的PCI-E总线协议,采用高速串行数据传输技术,支持Cache一致性报文和大块数据传输报文,能够用于实现4个处理器的直接互连。模拟结果表明,优化设计的互连接口每个接口能够实现64Gbps的双向最大有效带宽,最小传输延迟为120ns,能够较好平衡不同报文类型对带宽和传输延时的要求。  相似文献   

6.
联合战术信息分发系统JTIDS(Joint Tactical Information Distribution System)系统是无中心的移动通信系统,采用时分多址(TDMA)的网络接入协议.TDMA网络是一种同步网络,必须有统一的时间基准,各终端的时隙必须与时间基准同步,因此时隙同步技术是确保该网络正常工作的关键技术.基于HLA/RTI仿真平台,对网络延迟进行了测试,针对RTI中联邦成员的时间延迟很不稳定的问题提出并实现了一种简单高精度的软件时钟同步方法.  相似文献   

7.
针对战术窄带通信中常用的多点共享信道的访问控制方式存在的数据易冲突、信道利用率低等问题,提出一种时分式CSMA战术窄带通信组网控制技术。它将时分机制与CSMA技术相结合,载波侦听与信道占用时间相互独立,载波侦听用时分方式控制,确保网内节点不会在同一时间片内同时访问信道,数据不会冲突,有效地解决了传统CSMA存在的数据碰撞问题;在节点获得信道访问权后,可持续占用信道进行数据发送,从而有效提高了信道的利用率。  相似文献   

8.
利用低延迟、低功耗、高可靠的闪存芯片构建闪存存储阵列是实现高性能存储系统的有效手段。但应用传统磁盘阵列技术构建闪存存储阵列,会引入磨损均衡、校验数据更新频繁导致阵列生命周期降低等问题。针对闪存固有的读写特性,设计实现了一种基于NAND Flash的高性能磁盘阵列机制——基于缓存的可重构磁盘阵列策略。该机制采用可重构条带的思想,利用存储等级的内存作为缓存,对数据顺序重组。实验结果表明:该策略能够有效降低垃圾回收开销,提高闪存阵列的性能和使用寿命。  相似文献   

9.
针对制约变换域通信系统抗干扰性能的门限抑制问题,提出了基于Neyman-Pearson准则的自适应门限干扰抑制算法。从硬件实现角度,通过干扰提取模块和自适应门限比较器,建立干扰抑制系统;根据环境频谱,基于高斯分布和N-sigma原理,确定初始门限和虚警概率;提出了基于Neyman-Pearson准则的自适应门限算法,在约束条件下保证检测概率最大化。仿真结果表明,该自适应门限算法能够有效抑制多音干扰和线性调频干扰,干扰的剔除效果较好;同时具有良好的检测性能,较传统的双门限检测概率提高约3.14%的性能增益。  相似文献   

10.
针对水声领域中高速大容量的实时信号处理任务,为了提高处理系统的通用性,设计并实现了一种基于DSP芯片的并行声纳信号处理系统。系统采用TI公司的高性能处理芯片TMS320C6416作为其处理内核,并采用松耦合式的静态结点互连网络结构,能够在保证结点具有一定处理能力的同时进行方便高效的互连。为通用并行信号处理平台的设计提供了一种新的思路。  相似文献   

11.
为保证SpaceFibre星载数据网络大量实时数据流的超高速确定性传输,提出一种包含两个子算法的SpaceFibre网络服务质量时隙资源分配算法。形式化描述网络服务质量机制,给出调度矩阵相关定义;创建网络服务质量排队模型,定量分析时隙资源分配对网络时延性能的影响;考虑网络兼容性和算法鲁棒性,给出改进二进制序列调度子算法;采用提高初始种群进化程度和增加遗传算子等方法,给出改进混合单亲遗传调度子算法;利用Opnet网络仿真平台建立网络服务质量仿真模型,对比不同算法下网络时延性能。仿真结果表明,该时隙资源分配算法与其他算法相比,网络平均延时降低,网络性能得到显著改善,对构建低延时SpaceFibre网络具有参考意义。  相似文献   

12.
提出了对现代高速通信网络的性能要求,并着重就4种高速通信网络的主要性能、应用现状等进行了分析,指出了高速通信网络的未来发展方向.  相似文献   

13.
针对图计算应用的访存特点,提出并实现一种支持高并发、乱序和异步访存的高并发访存模块(High Concurrency and high Performance Fetcher, HCPF)。通过软-硬件协同的设计方法,HCPF可同时处理192条共8种类型的内存访问请求,且访存粒度可由用户定义,满足图计算应用对海量低延迟细粒度数据访问的需求。同时,HCPF扩展了基于内存语义的跨计算节点定制互连技术,支持远程内存的细粒度直接访问,为后续实现分布式图计算框架提供技术基础。结合上述两个核心研究内容,基于流水线RISC-V处理器核,设计并实现了可支持HCPF的RISC-V片上系统(System-on-Chip,SoC)架构,搭建基于FPGA的原型验证平台,并使用自研测试程序对HCPF进行初步性能评测。实验结果表明,HCPF相比原有访存通路,最高可将基于数组和随机地址的两种随机内存访问性能分别提升至3.5倍和2.7倍。远程内存直接访问4 Byte数据的延时仅为1.63μs。  相似文献   

14.
针对当前具有吞吐量和时延约束的软件无线电波形部署决策算法在内存开销方面考虑的不足,提出一个更为通用的波形部署决策系统模型,将波形的处理开销、内存开销和通信带宽开销都纳入到波形部署决策过程中,并设计了一种基于动态规划的波形部署决策算法以最小化波形对平台各种计算资源的占用总和。仿真结果表明,内存对波形部署决策具有重要影响,与未考虑内存开销的解决方案相比,平台支持的平均最大波形数目和平均处理资源利用率均下降40%左右。  相似文献   

15.
基于通用多核架构的网络分组处理系统性能受到诸如分组IO开销高、多核共享内存及进程调度竞争大、页表缓冲表项失效率高等问题的困扰。为此提出一种基于通用多核网络分组处理系统、面向高速分组转发应用的线程亲和缓冲区硬件管理机制,并在网络专用协处理引擎上实现。该机制采用无中断的线程亲和调度策略,将包含控制信息与缓冲区地址信息的描述符和分组数据按照分组处理的线程号链式地对应加载在多个地址连续的共享缓冲区中。基于通用多核和现场可编程门阵列平台进行报文转发测试,实验结果表明,采用线程亲和缓冲区管理机制能使平均报文转发处理性能提升12.4%,有效地降低IO开销和TLB表项失效率。  相似文献   

16.
为了加快卷积神经网络模型的计算速度,便于大规模神经网络模型在嵌入式微处理器中的实现,以FT-matrix2000向量处理器体系结构为研究背景,通过对多核向量处理器体系结构的分析和对卷积神经网络算法的深入研究,提出将规模较小的卷积核数据置于标量存储体,尺寸较大的卷积矩阵置于向量存储体的数据布局方案。针对矩阵卷积中数据难以复用的问题,提出根据卷积核移动步长的不同动态可配置的混洗模式,通过对所取卷积矩阵元素进行不同的移位操作,进而大幅提高卷积矩阵数据的复用率。针对二维矩阵卷积由于存在数据相关性进而难以多核并行的问题,提出将卷积矩阵多核共享,卷积核矩阵多核独享的多核并行方案。设计了卷积核尺寸不变、卷积矩阵规模变化和卷积矩阵尺寸不变、卷积核规模变化的两种计算方式,并在主流CPU、GPU、TI6678、FT-matrix2000平台进行了性能对比与分析。实验结果表明:FT-matrix2000相比CPU最高可加速238倍,相比TI6678可加速21倍,相比GPU可加速663 805倍。  相似文献   

17.
为进一步改善超低频频段的通信质量,在传统改进广义旁瓣抵消算法的基础上,提出新的超低频干扰抑制算法——生成式旁瓣抵消算法。该算法将人工智能研究热点之一的生成式对抗网络模型引入广义旁瓣抵消算法中,通过优化设计生成模型的网络结构及相关超参数,有效地解决了原算法存在的期望信号残留问题,为旁瓣抵消通道中的后级滤波算法提供了与主通道相关性更强的干扰参考信息,从而提高了算法对主通道干扰估计的准确性。为了验证优化后生成模型的有效性以及所提算法对不同类别干扰的抑制能力,在实验室环境下搭建实验平台,设计了多组对照实验。实验结果表明:优化后的生成模型具有较好的生成能力、较好的鲁棒性以及相对较低的运算复杂度;相比于传统改进的广义旁瓣抵消算法,所提算法进一步提高了信号带宽内的信干噪比。  相似文献   

18.
随着计算机应用向分布和异构发展,如何建立一个具有良好性能价格比的分布式多机联合计算系统是当前计算机应用开发者遇到的重要课题。文中结合分布式仿真应用实例,对多计算机联合计算的系统划分、数据通讯机制和高性能并行计算问题进行了论述。  相似文献   

19.
为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号