颠覆声音的想象，凤鸣 AI 引擎打开新路径

科技
2023-03-29 09:43
极客公园

下一代音频场景即将爆发。

作者 | 奇爱

打射击游戏时耳机质量挂钩胜率，陌生人社交时一段语音就能给人慰藉，线上 K 歌主播的声卡决定流量，会议的语音质量直接关系会议效率……

声音在互联网时代其实扮演着十分重要的角色，但又由于其底层基础的特点没有得当应有的重视。在通往下一代互联网的过程中，可以预见的是，声音将起着更大的作用。AIGC 的版图里已经有声音的重要位置。元宇宙拟真和超现实的特点下，声音在传达信息和提高体验两方面都不可或缺。

当前，一款更进一步地处理声音的 AI 引擎发布，已经可以让和声音有关的应用获得新一轮增长。3 月 23 日，实时互动云服务商声网在北京举办「凤鸣 AI 引擎」发布会，正式发布了囊括 AI 降噪、AI 回声消除、空间音频、最佳音效在内的声网新一代音频技术智能引擎。

开发者与企业可以如搭积木般灵活调用对应组件，并广泛应用在语聊社交、在线 K 歌、线上会议、游戏竞技、虚拟活动等诸多场景，为用户带来更纯净、更动听、更沉浸的语音互动体验，探索更多营收增长空间。

AI 加持，应用涌现，大量声音场景即将爆发。

RTE 场景不断丰富，

高音质互动需求急需满足

实时音视频技术的发展带出大量的创新场景，从狼人杀、直播连麦到直播电商、在线 K 歌、互动播客、元宇宙，伴随着场景的不断扩展，用户对实时音视频体验的诉求也越来越高。

传统的 RTC 概念，从信息传递的角度出发，音频功能仅提供简单的语音沟通，满足单一的场景和通话标准，对于音质并无太高的需求，也就是所谓的「能够沟通」。

声网发现，伴随着实时互动创新场景的涌现，用户对于音频体验的需求也产生了从量变到质变的进化，比如在线 K 歌、线上会议等场景，用户的需求早已从能够沟通到希望「脱离现实」，屏蔽外界干扰，实现纯净沟通；对于元宇宙、虚拟活动、游戏竞技等场景，用户则是希望从简单沟通实现「极致拟真」的沉浸式体验。

同时声网也观察到，音频体验的提升能够增强平台用户的核心体验。比如，对噪音的抑制能够提升语聊房用户活跃度和留存，以及游戏开黑场景的通话时长；回声消除能显著提升用户的在线 K 歌体验；而立体、具备空间感的音频体验则能提升元宇宙社交、游戏竞技、线上会议、虚拟活动等场景中用户的临场感和沉浸感。

声网针对以上痛点和需求，声网凤鸣 AI 引擎应势而生。

3 大音频能力+最佳音效实践，

回归互动本真

通过 AI 驱动的方式，声网打通了音频采集、前后处理、云端传输、编解码等链路，旨在为用户打造更纯净、更动听、更沉浸的语音体验，在现有实时互动玩法的基础上锦上添花，赋能行业开发者和企业。

1.AI降噪强力抑制 100+突发噪声，兼顾语音无损伤与混响抑制

想要在「脱离现实」的环境中办公、娱乐，屏蔽外界干扰是基础。相比于传统的降噪算法，凤鸣·AI 降噪的效果有显著提升，可以一次性解决 100+种突发性噪声，比如办公场景经常遇到的敲键盘、鼠标点击、电话铃声；家庭环境中遇到的小孩哭叫、装修、厨房做饭声；户外环境中的风声、雨声、汽车噪声等。

凤鸣·AI 降噪在强降噪的同时还能兼顾高保真，即使在人声密集场景下，也能实现纯净通话体验，甚至还实现了在不增加额外运算量的前提下，对远场语音具有明显的混响抑制能力。如果用户在一个房间中距离麦克风较远，这时候对方听到的声音是模糊的，若使用了声网的 AI 降噪算法，对端也能清晰地听到该用户的声音。

此外，声网自研的 AI 推理引擎还可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平台以低精度损伤、高性能、低功耗方式运行，使用户的设备不卡不烫。经数据测算，仅开启凤鸣·AI 降噪功能，相应设备 CPU 消耗增幅平均值<1%。

2.AI 回声消除强力抑制非线性回声，还原本来音质

回声是影响音视频通话质量的主要因素之一，尤其在线上会议、在线 K 歌、多人连麦等场景中，不仅损害通话质量，影响用户体验，还可能导致带宽增加。凤鸣·AI 回声消除利用算法对环境中产生的回声混响进行有效抑制，智能适应各类环境，实现精准音源分离，从混合的近端信号中消除不必要的远端信号，保留近端人声发送到远端，全面消除回声，实现高保真音频体验。比如，在双人合唱等在线音乐场景下，AI 回声消除可以使得人声自然流畅，增益效果显著。

3. 空间音频极致拟真，打造「声临其境」互动玩法

凤鸣·空间音频通过纯软件算法方案，模拟头部球面区域立体声场，利用范围音频、人声模糊、空气衰减模拟等能力，完美模拟现实听觉感受。当用户操作相应角色在虚拟场景里移动，可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度，呈现不同声音效果。

空间音频是元宇宙和游戏这类具备 3D 场景玩法的最佳搭档，如狼人杀、虚拟演唱会、虚拟活动等场景，可以有效的增强用户在线上的互动、听觉体验，重构用户在虚拟世界的沉浸感与临场感。同时，开发者不必担心空间音频功能对于用户设备的影响，据数据测算，开启凤鸣·空间音频功能后，相应设备 CPU 消耗增幅平均值<0.7%，内存消耗增幅平均值<2M。

那么以上音频能力该如何组合使用?

多年来，声网汇总梳理语聊领域各类头部 App 的音效配置，综合声网超过万亿分钟的用户音效偏好的数据模型，并结合声网音频专家的多年沉淀与研究，能够为平台提供针对各种语音场景的最佳音效配置，助力平台用户享受行业顶尖的音效体验。目前已上线的最佳音效包括语聊社交、K 歌、游戏陪玩、专业主播等场景。国内某头部语音社交平台就是通过声网提供的最佳音效配置方案，将空间音频、美声、电音等丰富的声音玩法融入互动中，增强平台留存和变现能力。