中国铁塔:探索超大规模分布式算力 深入推进数字中国建设

来源:光明网
2024-11-15 16:44:10
分享

分布式算力被中国信通院列入“2024政企数智化转型十大关键词”。中国信通院指出,随着新一代通信规模建设和边缘计算应用的持续部署,越来越多的应用运行和数据生产处理在边端侧开展,这对于传统算力基础设施的部署、调度提出了新要求,分布式算力通过不同范围部署不同规模算力,为政企数智化转型各场景随需获取算力提供新思路。

作为全球最大的通信基础设施服务商,成立十年的中国铁塔拥有210万站址资源、能源设施和近百万处机房,升级22万现有“通信塔”为“数字塔”……依托自有超大规模分布式算力资源,中国铁塔在2024年启动了分布式算力池建设,打造超大规模分布式资源池,该项目是国内通信行业首个集云计算、云原生、大数据、AI、边缘计算等多元算力于一体,覆盖范围最广、开放兼容性最好、一云多芯的自有资源分布式节点项目。

中国铁塔信息技术研究院院长叶臻表示,中国铁塔分布式资源池项目取得的成绩,说明整个行业都处于从集中大型云到边端小型云的发展过程中。当前,算力正从集中式向“云边端”分布式范式转变。随着大型语言模型、工业大模型等智能化应用热度不断高涨,边缘算力作为产业智能化发展的数字化底座将迎来战略机遇期。而中国铁塔分布式资源池项目,实践了超大规模分布式节点建设,对推动边缘算力发展和技术落地,有着重大技术价值和产业意义。

发展数字经济,向边缘算力要业务创新力

2014年7月,中国铁塔成立,负责统筹建设通信铁塔设施,提高基础设施共建共享水平。2019年,中国铁塔正式开启了“一体两翼”业务布局,即以面向通信行业的业务为“一体”,以依托独特资源优势面向社会的智联业务和能源业务为“两翼”。十年来,中国铁塔在发展“两翼”业务过程中推进“一塔多用”,将“通信塔”升级为“数字塔”,即在铁塔上挂载环境监测仪、气象监测仪、基站CDN、传感器等多种信息化设备,可以满足行业企业视觉感知、数据采集、图像分析、信息处理等数字化需求。此外,中国铁塔还推进从“通信机房”变“数据机房”,布局边缘算力网络。

目前,中国铁塔已经形成了“前端视频采集+边缘AI计算+云端AI计算”的“端边云”技术架构体系,自主研发了分布式视频监测平台、自主定制边缘网关、自研AI算法等,实现多个领域的技术创新。在“端边云”技术架构和遍布全国的边缘算力资源支持下,中国铁塔已经为40多个行业数字化转型赋智赋能。

随着“一体两翼”战略的深入实施,中国铁塔启动了分布式资源池建设项目,目标是将遍布数百万平方公里的海量数字基础设施组建成一张“数字天网”,通过新一代信息通信技术赋能千行百业实现数字化转型,服务“数字中国”战略蓝图实现。

由于中国铁塔两百多万座铁塔分布在全国,从数据采集的压力来看,集中资源池的模式面临很大挑战。中国铁塔从2020年开始尝试利用分布在全国的自有小型机房,建设分布式节点,并且与浪潮云海合作,将云平台的分布建设、逻辑集中的管理模式,应用到实际数字化底座的建设中。

实际上,随着数字塔业务的发展,中国铁塔每数据中心每日新增数据量数十T,预计2025年每数据中心接入约二十万站,未来数据规模将达数十PB级别,且存在大量的视频、图像等非结构化数据。此外,中国铁塔的设备数量极多,所有设施都需要接入平台中实现统一纳管。由于基础设施分布地域跨度极大,同时要求在算力下沉的同时,实现多数据中心的统一运维管理和“云边端”协同。

叶臻指出,中国铁塔启动自有资源分布式算力池建设主要基于三个方面的考虑。

第一是基于业务特点考虑,基础设施资源分散在全国各地,而且也面临地方数据不出省的需求,因此既要解决客户需求又要实现统一管理。而分布式算力的业务逻辑和管理逻辑的相对分离,恰好满足这两个需求,可以将用户侧的管理结果留在省内,资源侧的管理则集中到总部,实现IT建设随业务发展而行。

第二,从经济性考虑。由于中国铁塔在各地的都是小型机房,大多数位于中国铁塔属地分公司购置的综合楼内,不需要专门征用大型土地以及增加管理难度。而将综合楼用于机房建设,也节约了成本,从经济性角度来看,加强了对自身资产的有效使用。

第三,从业务前瞻性考虑。在发展数字经济当中,中国铁塔依托丰富的分布式资源,可能成为数据采集方面最有优势的企业,将来在数据的采集、存储和通过边缘网络传送到其他数字资源进行处理时,分布式中间节点将对企业未来的发展带来很大便利。

中国铁塔分布式资源池建成后,将带来显著的经济和社会价值。中国铁塔基站分布在全国各地,对基站的数据源采集后可用于社会治理的方方面面,例如可以采集道路、农田等各行各业的数据,用于耕地保护、治安、森林防火、河流监控、大气污染防控、地震强度预警预报等,对数字经济的发展提供强有力支撑。目前铁塔的智联业务按行业开展,一旦实现数据共享,产生的经济和社会价值就可能翻倍。

战略再升级,分布式节点支撑边缘算力大发展

作为目前国内超大规模的分布式资源池,中国铁塔分布式资源池项目的建设难点在于地域跨度极大、设备数量极多、数据类型复杂,需要解决单数据中心跨类别多元异构资源统一管理、多数据中心高效调度运维以及可持续建设等严峻挑战。这一项目由浪潮云海负责实施,浪潮云海以可演进的私有云理念,打造面向未来的“云数智、云网安一体化”云底座,确保中国铁塔技术架构的升级迭代以及全国数据中心的持续建设。

中国铁塔分布式算力池建设项目的目标为实现“全国一朵云、两级多中心”,在各省建立满足虚拟化、云原生、AI识别等场景智算中心,实现算力的就近调度、就近服务。配合中国铁塔“十四五”规划,中国铁塔分布式算力池项目启动了首期山东、辽宁、湖南等6个省的骨干节点建设,后续将推进到更多省份。

浪潮云海基于中国铁塔的项目建设需求,明确了软硬解耦、存算分离、IaaS异构兼容、PaaS生态融合等建设原则。InCloud OS通过分层解耦、开放标准和一云多芯的创新架构设计,实现以云为核心的数字化基础设施的模块化、组件化封装,帮助客户构建持续演进的下一代私有云数据中心,为企业业务创新提供多元融合和高效便捷的私有云平台,云海OS的最新特色包括精细化基础设施管理、云原生PaaS、智算融合、一云多芯等。

据了解,浪潮云海方案为中国铁塔提供了四大方案价值:

第一,提升信息化服务水平、提升资源方法效率、实现数智化运维,通过分布式数据中心,信息化支撑响应效率由数天缩短至2小时,资源管理效率大幅提升,采用“末端视频采集+云端AI计算+边缘AI计算”等手段,基本实现了自动巡检、自主派单、智能资管等功能,做到了远程管理、不上站管理,支撑了遍布全国的铁塔站址的智能化、数字化运维。

第二,降本增效、经济效益增加,自有资源分布式节点数据中心的持续建设助力节约信息化投入。

第三,多元融合、推动数据中心持续演进、支撑铁塔未来战略,浪潮云海云平台的可演进理念,未来将伴随中国铁塔围绕新基建、空间数智化治理、人工智能、边缘算力网络、低空经济等多个方面,加速推进战略性新兴产业和未来产业发展,加快形成新质生产力。

第四,助力数字中国建设、提升社会安全性,建设云网融合、智能敏捷、绿色低碳、安全可靠的智能化综合性数字信息基础设施,有力支撑网络强国。

超大规模分布式云,打造边缘算力新样板

浪潮云海首席科学家张东介绍,从分布式算力的角度来看,中国铁塔分布式算力资源在中国甚至在全球都算超大规模,这为实践超大规模分布式节点、发展边缘算力和边缘计算技术,提供了难得的机会。

中国铁塔分布式算力池浪潮云海方案的整体技术特色包括:以IaaS、PaaS分层解耦的原则建设云平台,融合云上安全生态,面向未来构建云数智、云网安一体化的数字化底座;边缘计算能力增强,进一步完善多协议端设备的生命周期管理功能,强化异构边缘资源的统一管理及多地域边缘应用按需编排能力;构建面向分布式、大规模场景的智能化运维能力,实现巡检工具化、管理自动化、运维智能化,提升数据中心自治能力;在存储先进性方面,按照中国铁塔业务需求实现块存储、文件存储、对象存储分级建设,面向高速IO场景构建全闪资源池,满足及时响应需求,面向海量存储场景构建混闪资源池。采用领先的RDMA技术提升分布式存储性能,实现NVMe-OF、ISCSI、FC等多协议类型全兼容。

由于中国铁塔算力资源的超大规模特性,浪潮云海在提供方案时,双方也进行了联合技术攻关。浪潮云海云计算方案总监刘健介绍,中国铁塔自有分布式资源具有环境复杂、跨度大、规模大等特点,对于解决方案提出了特殊的挑战。双方在项目推进过程中组成了联合项目组,共同解决技术挑战、落实技术方案。

中国铁塔信息技术研究院维护室经理王焱介绍,中国铁塔分布式算力资源池首期项目推进过程遇到了很多挑战:首先是异构,不同节点具有不同厂商、不同类型的设备,需要考虑异构设备的兼容性;其次是可靠性问题,特别是系统连续性的要求,对自建分布式资源平台提出了较大挑战,最终双方合作解决了挑战,包括在架构设计初期对容错方面进行了较大的投入;第三是网络可靠性,因为分布式算力节点分布在不同的地理位置上,网络比较复杂,还有I/O性能的挑战,浪潮云海通过专题优化,结合硬件的I/O能力和网络SDN的能力,最终解决了大规模并发场景的问题;最后是网络安全,因为云平台上承载的是企业敏感数据,如何保证不被未授权的人访问、抵御外部攻击和内部泄露,中国铁塔与包括浪潮云海在内的业界网络安全企业合作。

叶臻表示,与浪潮云海双方合作的分布式资源池建设项目,既提高了工作效率,也加强了资源管理能力。同时,浪潮云海在网络安全支撑方面也给予了全面支持。(科文)

分享