共查询到20条相似文献,搜索用时 390 毫秒
1.
建立了描述车辆姿态向量和重力向量的两个坐标系,研究了姿态向量与坐标变换之间的关系,根据Solid-Works提供的函数,利用二分法求解了给定姿态下的浮心位置;以浮心计算为基础,通过对车辆的受力分析和运动分析,确定了车辆浮态的计算方法;利用SolidWorks的API函数进行二次开发,形成了计算静稳性的程序,并进行了实例计算。结果表明:与传统的作图法相比较,该方法计算结果更精确,计算速度更快。 相似文献
2.
本文针对对称矩阵A建立起性态数的并行计算公式,并通过数值试验得到了矩阵性态数变化对方程组Ax=b的解的误差影响,同时进行了向量和标量计算,计算结果表明:当x大于等于300时,向量计算速度比标量计算速度快17倍。 相似文献
3.
4.
宽单指令多数据流(Single Instruction Multiple Data, SIMD)架构数字信号处理器一般都能高效支持地址连续或等距跨步等规则应用的向量访存,但对于科学与工程计算中广泛存在的不规则应用的数据访存则带宽利用率往往较低,从而大幅降低了其整体运算能效。为了提高不规则应用的向量访存性能,基于某SIMD数字信号处理器的体系结构,设计了一种支持Gather/Scatter访存的向量存储器GSVM。通过设计与SIMD宽度相匹配的向量地址计算单元和合适深度的冲突缓冲器阵列,实现了Gather/Scatter指令向量地址计算、仲裁与缓存的全流水访存操作。实验结果表明,相比以前不支持Gather/Scatter访存的存储器,GSVM在增加22%的硬件代价基础上,基于稀疏矩阵向量乘的测试程序集获得了2~8的性能加速比。 相似文献
5.
6.
向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。 相似文献
7.
向量处理器的向量化算法映射是难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法,采用将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重迭,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。在Matrix上的实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。 相似文献
8.
9.
针对标准支持向量回归波束形成器的计算复杂度高、内存开销大、训练速度慢的缺点,提出了邻近支持向量机(Proximal Support Vector Machine,PSVM)波束优化方法。PSVM打破了通过对偶问题求解原问题的传统思维,将支持向量回归的约束条件等式化,直接对原问题进行分析与求解,给出了基于PSVM波束形成器的优化模型及具体实现过程,并进行了数值仿真实验。研究结果表明,在保持波束形成器性能基本不变的情况下,降低了计算复杂度,减少了内存开销,提高了训练速度。与传统的支持向量回归波束形成相比,具有良好的快速性,为波束形成器的优化设计提供了一种新的有效方法。 相似文献
11.
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。 相似文献
12.
数据粒度是海量空间数据并行计算的重要问题之一。通过对不同性质的并行算法的对比分析,提出空间数据粒度模型,量化地反映并行地形分析中数据划分的规模,建立并行数据粒度评价模型。通过研究集群环境下不同算法的数据并行数据粒度问题,提出基于并行数据粒度评价模型的优化数据粒度调度算法。通过计算每一次并行计算的时间与数据粒度效率,从而实现对计算数据粒度动态更新以追求更高的加速比。经过实验验证,该算法较之传统算法,可提供更高的任务执行效率并具有更好的可移植性。 相似文献
13.
针对参考文献[1]中提出的融合多信源信息的融合算法,讨论了其中大计算量的测元遴选问题,并给出了它的并行算法。最后详细地分析了此并行算法的高效性和可扩展性,给出了加速比的仿真结果 相似文献
14.
提出一种面向多核处理器的并行PCA-SIFT算法,采用数据级并行方法实现并行的特征提取和特征点匹配,将计算任务分配到各个DSP核并行处理,充分开发多核处理器的多级并行性.实验结果表明,并行PCA-SIFT算法对各种不同图像形变的图像具有良好的适应性,具有接近串行PCA-SIFT算法的图像匹配能力,平均加速比达3.12. 相似文献
15.
郭甲腾 《国防科技大学学报》2015,37(5)
北斗系统静止轨道卫星信号盲区解算方法复杂、串行计算耗费时间长,需在并行环境下利用更多的计算资源进行北斗盲区的快速解算。本文在分析北斗盲区解算原理与算法并行特征基础上,提出了基于动态盲区影响域的并行解算方法,并以栅格单元为并行粒度进行任务划分,实现了北斗盲区的高效并行解算。基于全国范围59景数字高程模型数据,利用8进程进行盲区并行解算,耗费时间约为5小时。实验测试结果表明:算法的并行效率随着进程数的增加有所衰减,但稳定在96%以上。基于本文方法实现的程序中间件已集成应用于高性能地理信息平台中,应用效果良好。 相似文献
16.
运用树网结构可以完成矩阵的并行快速求逆,其中迭代法是一种非常重要的方法。本文给出了一种新的迭代格式,对任意非奇异矩阵A,运用新的迭代格式对A求逆相对于经典牛顿迭代法,在同样精度要求下,时间可减少一半。 相似文献
17.
18.
针对拓扑检查算法复杂、计算量大,串行计算已远不能满足海量地籍数据高效拓扑检查需求的问题,在分析了点线拓扑关系的并行特点基础上,将界址点的数据划分方法与界址线的QR空间索引方法相结合,实现了界址点与界址线的并行拓扑计算。用某地区实际的界址点集与界址线集对点线拓扑并行检查进行实验。测试结果表明:并行检查算法的并行效率随着进程数的增加而有所衰减,但稳定在30%以上,加速比达到5以上,且相比于Arc GIS效率提升了30倍以上。并行检查方法以工具的方式集成应用于高性能地理计算平台中,应用效果良好。 相似文献
19.