近日,上海交通大学智能计算研究院和杉数科技在大规模数学规划高性能计算领域取得重要突破。双方研究团队在国际预印本平台arXiv发表论文《Beyond Single-GPU: Scaling PDLP to Distributed Multi-GPU Systems》,首次在真实工业规模问题上,系统性实现了面向大规模线性规划的多 GPU 分布式加速求解框架,标志着数学规划这一长期依赖 CPU 的基础计算技术正式迈入多卡 GPU 并行时代。
杉数技术团队关键参与,共铸核心突破
杉数科技技术团队作为论文的核心作者,在优化求解与高性能计算方向上持续探索攻克,通过算法与架构的协同创新,为本次突破性研究提供了关键技术支持与工程实现保障,领衔实现数学规划求解300倍提速。
本篇论文构建了一套能够高效扩展至多GPU环境的分布式PDHG框架,其核心突破在于通过二维网格划分与多级随机重排策略的深度协同,巧妙攻克了大规模稀疏优化中“通信瓶颈”与“负载/访存权衡”的难题。
为了解决单机显存受限与通信拥塞,作者设计了基于二维设备网格的存储拓扑,通过自适应调整网格形状并配合行列轴的正交归约,最小化了通信体积;更为关键的是,针对稀疏矩阵极易导致的负载不均,论文首先提出了完全随机重排策略,在统计上有效拉平了非零元分布,随后为了解决该策略对访存局部性的破坏,进一步优化提出了块状随机重排,即在宏观上随机打散以均衡负载,微观上保留局部稠密子块以确保 GPU 高效合并访存,最终配合基于非零元计数的动态分区算法,在保证FP64数值精度的同时实现了近乎线性的多卡加速比。
300倍性能跃升:定义工业级求解新标准
线性规划与数学规划方法是运筹学、人工智能和工业决策系统的核心基础,广泛应用于能源调度、供应链优化、交通网络、芯片设计以及智能制造等关键领域。然而,长期以来,高精度数学规划求解因对数值稳定性和收敛可靠性要求极高,被普遍认为“不适合GPU架构”,主流求解器仍以CPU为核心计算平台,严重制约了大规模问题的求解效率。
双方研究团队将“优化算法与新型计算架构的深度融合”作为重要研究方向,围绕GPU加速的一阶优化算法、线性规划和半正定规划等问题开展了持续、系统的探索。研究团队此前已与MIT的Haihao Lu教授合作,率先提出并实现了多项GPU加速数学规划求解器,在国际上首次证明了一阶优化方法在GPU架构下处理高精度数学规划问题的可行性,为该领域打开了新的技术路径。
在此次工作中,双方研究团队在前期单卡GPU成果的基础上,进一步突破显存容量和计算规模限制,提出了面向多GPU系统的分布式PDLP求解架构。该方法通过二维矩阵分块、非零结构感知划分以及高效的GPU间通信机制,实现了大规模线性规划在多张GPU上的协同求解,在保证数值精度的同时展现出良好的可扩展性。

2025.10杉数求解器COPT 8.0正式发布
新增支持全局最优(混合整数)非凸二次优化求解器
GPU加速求解性能显著提升
尤为引人注目的是,该工作清晰展现了大规模数学规划计算范式的连续三代跃迁:从传统CPU计算,到单卡GPU加速,再到多GPU并行协同求解。以源自欧洲EDA设计领域的经典大规模线性规划基准问题Zib03为例,该问题在传统CPU求解器上通常需要十几个小时才能完成。2023年,团队在cuPDLP-C的首个NVIDIA H100单卡实验中,已将该问题的求解时间压缩至约900秒。在本次研究中,团队进一步将算法扩展至八卡GPU并行环境,成功将求解时间降低至约200秒,相较CPU实现实现了超过300倍的整体加速。
这一成果被认为是工业界与学术界首次成功实现的多卡GPU加速数学规划的系统性尝试。相关结果不仅在性能数量级上刷新了对数学规划求解能力的传统认知,也首次在真实工业规模问题上证明:多GPU架构能够在保持高数值精度与稳定收敛性的前提下,成为数学规划这一基础计算引擎的核心计算平台。
此次研究突破,体现了杉数在底层求解器核心技术上的持续投入与创新能力。未来,杉数将继续围绕“优化算法×GPU×人工智能”这一前沿交叉方向,推动数学规划在多GPU、跨节点乃至更大规模计算环境下的发展,持续服务于能源、电力、制造、物流和人工智能等国家和产业重大需求,我们期待与学界、产业界伙伴携手,共同推动中国智能计算技术的进步与应用落地,进一步巩固我国在智能优化与高性能计算领域的国际领先地位。