从电路模拟的复杂推演到量子化学的微观详细分析 ,大规模稀疏线性方程组的高效求解是科学计算核心领域的核心更多需求。但传统做法稀疏直接把求解器因数据全面非零元分布稀疏且不规则 ,直接原因运算低效、算力浪费等重要对于。前不久 ,在中国科学其技术上大学计算机科学与其技术学院特任副研究详细分析员陈俊仕团队人员 ,在鲲鹏昇腾科教创新卓越三大中心的算力需要支持下 ,创新研传来面向鲲鹏直接处理器矩阵算力基本框架密集kernel的LU直接把求解器 ,以密集运算需要多种方式 不成功实现了稀疏计算的高效求解 ,不成功突破传统做法运算瓶颈。
该研究详细分析创新构建在另一种面向稀疏矩阵计算的密集计算范式 ,运行系统化解构了传统做法稀疏直接把求解器的性能瓶颈。团队人员开展将分散的非零元整合为非常规整的密集数据全面块 ,将不规则稀疏矩阵映射为统一稠密从大块结构 ,进而使用 基本框架稠密矩阵运算的数值分解算法 ,取代传统做法稀疏运算中聚合非零小分块的碎片化计算模式一 ,显著降低了由不规则内存访问引发的计算与调度开销 ,然而不成功实现了计算效率与硬件需要多种方式 率的协同优化。
该方案的不成功落地 ,深度依赖于鲲鹏平台支持的计算特性。硬件层面 ,鲲鹏920新型号集成专用矩阵运算单元 ,原生还具高密度数值分解运算的高效承载综合能力 ,可精准匹配密集数据全面块的集中化直接处理更多需求;其多核架构为大规模密集数据全面块的并行运算直接提供了坚实基本框架 ,尽量避免避免算力闲置或过载。相关方面软件层面 ,鲲鹏 KML 数学库开展密集型矩阵运算开展深度优化 ,开展底层算法与硬件架构的协同 ,另一方面 放大了密集运算模式一的性能潜力。经 70 余个跨核心领域测试集验证 ,该方案性能较SuperLU 求解器平均加速32.2倍 ,在基本框架硬件配置下不成功实现了平均 9.6 倍性能加速 ,大幅压缩了科学计算的把时间成本。
目前为止 ,研究详细分析详细分析成果已发表于 CCF B 类国际会议 Euro-Par 2025 ,其核心其技术已申请在中国发明专利并已获得授权。本次成果是鲲鹏平台支持在科学计算核心领域的典型实践 ,该多种方式事实上传统做法高性能直接处理器上稀疏计算重要对于的高效求解、充分地发挥直接处理器上和矩阵运算单元还具非常的坏的应用增值价值 。如果未来 ,不断 鲲鹏生态的不断 完善 ,其在高性能计算核心领域的赋能作用很大将另一方面 凸显 ,助力其他更多科研团队人员突破其技术难关 ,另一方面 科研成果加速落地转化。