腾讯副总裁蒋杰:腾讯混元率先采用MoE结构升级,性能提升超50%

来源:中国网
2024-05-06 17:31:57
分享

在4月26日—28日举行的第十七届中国电子信息年会上,腾讯公司副总裁蒋杰表示,腾讯专注于自主可控的大模型技术发展路线,聚焦基础研究,正在利用自身积累和实力构建底层算力网络,开发训练框架,不断迭代技术,积极落地新应用,推动人工智能+及新质生产力发展。

腾讯公司副总裁蒋杰

腾讯混元是腾讯基于全链路自主可控技术打造的生成式大模型,自2023年9月首次亮相以来,通过持续迭代和实践,积累了从底层算力到机器学习平台再到上层应用的完整自主技术。目前,腾讯混元大模型参数量已达到万亿,tokens数量超过7万亿。国际权威调研机构沙利文发布的《2024年中国大模型能力评测》显示,腾讯混元在通用基础能力和专业应用能力已居国内第一梯队。

算法层面,腾讯混元大模型率先采用混合专家模型 (MoE)结构,并在这个过程积累大量自研技术,其中包括创新的专家路由Routing算法、独创的MoE Scaling Law机制以及合成数据技术,实现模型总体性能相比上一代Dense模型提升50%。 

训练和推理框架上,腾讯自研Angel机器学习平台面向大模型训练,在预训练、模型精调、强化学习多个阶段进行优化,相比业界开源框架,可以用更少的资源训练更大的模型,训练速度是主流框架的2.6倍;面向大模型推理,Angel机器学习平台实现成本相比业界主流框架下降70%,支持国产主流硬件的适配。

算力层面,腾讯拥有自研星脉高性能计算网络,使用领先的3层网络架构,可支持单集群12.8万卡规模,具备业界最高的3.2T通信带宽,可提升40%的GPU利用率,节省30%—60%的模型训练成本,为AI大模型带来10倍通信性能提升。此外,星脉网络中的交换机、光模块、网卡均是腾讯全链路自研。

会上,中国电子学会正式颁发2023中国电子学会科学技术奖。腾讯联合北京大学、北京科技大学共同研制的项目《面向大规模数据的Angel机器学习平台关键技术及应用》荣获科技进步一等奖。由多名院士等权威专家组成的鉴定委员会认为:Angel机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平。

创新技术的同时,腾讯也在持续探索大模型在各行业场景中的实际应用。目前,腾讯混元大模型已经支持腾讯会议、企业微信、腾讯文档等内部超过400个业务和场景接入,并通过腾讯云,面向企业和个人开发者全面开放。腾讯旗下协作SaaS产品已经全面接入腾讯混元大模型,腾讯乐享、腾讯电子签、腾讯问卷、腾讯云AI代码助手等协作SaaS产品也都已实现智能化升级。

据蒋杰现场介绍,目前腾讯混元大模型也在文生图、图片理解和生成、视频生成等多模态方向进行技术探索,并携手合作伙伴尝试落地应用,在传媒领域,目前,新华社、央视新闻、南方都市报等20多家媒体也深度使用腾讯混元视频生成、文生图等进行内容生产和创作提效。

分享