腾讯会议天籁实验室两项研究成果获深圳人工智能奖

4月26日，记者获悉，2023年度“深圳人工智能奖”名单正式揭晓，腾讯会议天籁实验室的两项研究成果《Penguins智能语音编解码器关键技术研究与应用》、《腾讯会议天籁音频技术通信平台》分别获得人工智能科技进步奖、人工智能行业应用奖。

深圳人工智能奖由深圳市人工智能学会主办，为持续推进人工智能前沿基础理论和前沿技术研究，发挥人工智能技术在各行业领域的赋能作用。该奖项的评选历时8个月，经过专家评审团的严格评审和筛选。

Penguins: 腾讯首款自研神经网络语音编解码器

本次天籁实验室荣获“深圳人工智能科技进步奖”的研究成果来自于腾讯首款自研的神经网络语音编解码器——Penguins。

在实时通信领域，如视频会议、网络通话、游戏连麦场景中，很容易受到网络信号差等因素的挑战，影响了用户体验。

传统的语音编解码器，包括AVS、ITU-T等标准语音编码器，在码率降低到10kbps以下时，语音质量下降明显，影响用户体验。为应对此挑战，腾讯会议天籁实验室联合腾讯AI Lab，推出的腾讯首款自研神经网络语音编解码器——Penguins。作为新一代的AI Codec，实现了6kbps下的高质量通话，在主观质量上也非常接近原始参考信号，媲美OPUS在20kbps的质量，主观质量对标传统编码的中高码率情况下，编码效率提升200-300%。

Penguins的研发，凝聚了腾讯会议天籁实验室长达5年的投入，从算法研究、工程化、产品化层面都做了开拓创新，将AI与传统技术紧密融合，形成了全新的方法论，打破了传统香农定律的性能极限，引入了大数据并在可控算力增量下提供了新的性能上界，从而对下一代通信系统，尤其是信源编码器部分，提供了新的技术基础和方法论。

2023年第85次AVS会议上正式立项了AVS3语音编码项目，由腾讯会议天籁实验室牵头，协同腾讯标准事务中心主导发起，并负责推进维护。随后在第 87 次 AVS 工作会议上，以Penguins为原型，腾讯侧提交的技术方案被选择为AVS3P10实时语音编码的RM0基线。经过多方测试验证，RM0代表了目前AI Codec的最高水平!这代表着，AVS3音频编解码标准又向前迈进了坚实的一步。

在今年3月举行的第88次AVS工作会议上，AVS3P10实时语音编码进入委员会草案阶段并输出CD1.0版本;这一里程碑的达成，标志着AVS3P10标准交付件趋于稳定。

天籁音频技术通信平台: 视频会议无惧噪音的秘诀

除了网络的影响，线上会议也很容易周围环境声学因素的干扰，听不清是常有之事，导致双向沟通效率与质量的下降。天籁实验室基于深度学习和AI算法，开拓性综合了前处理与后处理，在成功消除300多种环境噪声基础上，首创性推出基于声纹的个性化语音增强技术，进一步消除周围人声的干扰，凸显主讲人的声音信号。现在，该技术已成功应用在腾讯会议上。

该技术已经多次在业界顶级比赛中证明实力：

在由微软举办的ICASSP 2023深度学习降噪挑战赛(DNS Challenge)中，天籁实验室联合西工大谢磊老师团队在头戴式设备(有线耳机、蓝牙耳机等)和非头戴式设备(扬声器、设备内置麦克风等)的个性化增强任务挑战中，项目组同时取得两个赛道的冠军。

2023语音信号质量增强挑战赛(SSIC)中，天籁实验室荣获SSIC全部两个赛道的冠军，并在降噪、混响、卡顿、响度、音质修复等多个子项均达到了领先水平。

2022年，天籁实验室在ICASSP DNS 2022 全频带实时个性化语音增强track 2比赛获得总分第一。

多次蝉联冠军，是天籁实验室在语音和音频方向多年研究能力的沉淀，也是团队服务腾讯会议亿级用户的实力体现。如今，该项技术荣获2023年度“深圳人工智能行业应用奖”，再次证明了领先技术与行业实践完美融合。

未来，天籁实验室将持续探索实时音频通信前沿技术，并将更多的研究成果应用到腾讯会议后续的音频质量提升中，进一步改善用户体验，打造“听得清、听得真”的极致体验。

编辑：rwzh4