随着超大规模人工智能模型和海量数据的爆发,人工智能对算力的需求也随之不断走高。根据IDC发布的《2022-2023中国人工智能计算力发展评估报告》显示,中国人工智能计算力保持快速增长,2022年智能算力规模达到268百亿亿次/秒(EFLOPS),超过通用算力规模。
作为云服务国家队,天翼云积极推进算力普惠发展,已形成“2+4+31+X”资源布局,构建了“集中化+区域化+属地化+边缘化”的云网基础设施,为人工智能夯实“算力底座”,助力AI快速完成数据训练,提高计算与模拟的精准性。
为了适应市场智能算力快速增长的速度,天翼云聚焦人工智能场景创新,推出天翼云智算平台,以普惠智能算力为基础,支持大模型训练、智能推荐、无人驾驶、生命科学、NLP等业务场景。
天翼云智算平台依托天翼云分布式架构的云底座和海量的计算、存储、网络资源,具有高性能、高弹性、高速互联、高性价比等特性,能够满足企业不断增长的高性能算力使用需求。
日前,天翼云智算平台通过中国信息通信研究院《可信算力服务平台技术能力要求第3部分:智算平台》评估,成为业内首批通过该项评估的云服务商。
具体来看,天翼云智算平台主要有以下四个方面的差异化优势:
高性能底座支撑能力:天翼云智算平台基于天翼云TeleCloudOS4.0云网底座,覆盖全场景算力需求;打造国产化能力体系,适配国产主流GPU芯片以及各种国产服务器,适配自研云服务器操作系统CTyunOS;集成弹性计算、分布式存储、云网络三大基础核心技术,软硬协同硬件加速,提供全量IaaS产品服务。
GPU虚拟化能力:天翼云智算平台支持主流Mediated Passthrough(vGPU)、直通透传等虚拟化技术;支持软硬件层面的容器虚拟化技术,软件方面支持API劫持及其他算力和显存灵活分配能力,硬件方面支持MIG、vNPU等特性,从物理资源层面分配单卡资源。
高效的调度能力:资源调度方面,天翼云智算平台实现对GPU、NPU、CPU等异构算力资源的混合调度,训练、推理任务统一调度,实现了异构算力和异构任务的统一调度;任务调度方面,提供基于任务优先级、任务SLA、资源独占式调度、共享式调度、抢占式调度,灵活支持各类差异化的用户需求。
分布式训练能力:天翼云智算平台提供分布式训练一站式解决方案,融合GPU拓扑感知、亲和调度、高IO并行文件系统等底层技术,支持多种模型训练方式,兼容主流AI框架,扩展定制业界主流分布式训练方案,提升训练数据量,缩短模型交付周期;提供定制化算法框架,采用代码生成等方式,内置提供丰富的算子,简化数据集导入、特征工程处理、预训练模型依赖等步骤,提升AI训练开发效率;针对大模型分布式环境下的训练,显存优化方面使用ZeRo等技术,打破显存与内存的隔阂,降低训练的显存开销。
随着国内新一波人工智能浪潮袭来以及AI规模化落地应用,具备“更高、更快、更强”能力的智能计算基础设施平台被人工智能行业所青睐。天翼云智算平台适用于城市治理、AI质检、搜索推荐、自动驾驶、金融、科学研究等领域,可提供人工智能应用所需算力服务、数据服务和算法服务,通过算力的生产、聚合、调度和释放,促进AI产业聚集发展。
天翼云智算平台不仅提供算力,还对云能力做“组件化”封装进行输出,能迅速支撑业务上线,提升技术创新能力,加速科技研发进程。此外,智算平台的推广与应用将产生联动效应,带动通信服务网络、大数据、人工智能等技术快速迭代,有助于我国科技创新提速。
在人工智能按下“快进键”的背景下,天翼云不断完善智算基础设施,打造创新性的产品,深度赋能人工智能领域企业跑出“加速度”,并通过多点发力布局走在智算领域的前列,AI应用也将在科技创新的助力下进一步加速“走深向实”,全面推动AI产业高质量发展。