谷歌首个处理语音的AI编解码器，SoundStream最新技术详解，高效压缩且降噪

您现在的位置：首页 > 产业新闻 > 人工智能 > 文字新闻

发布时间：2021-08-17　　来源：AI人工智能网　　

　　8月14日消息，据外媒VentureBeat报道，美国时间8月12日，谷歌公司对旗下音频编解码器SoundStream进行了技术详解，该编解码器不仅可以处理不同的类型声音，而且可以提供高质量的音频。同时，SoundStream是首个可以处理语音和音乐的AI编解码器，并且编解码器还能在智能手机上运行。

　　据了解，SoundStream是一款从端到端的“神经”音频编解码器，可处理的音频包括语音、音乐和环境声音。同时，SoundStream可同时进行压缩和增强音频以消除背景中的噪音。

　　据谷歌介绍，3kbps SoundStream的性能接近9.6kbps的美国EVS处理器，并且性能超过了12kbps Opus编解码器。此外，在相同比特率下，SoundStream的性能比当前版本的Lyra更好。

　　用户利用SoundStream来压缩音频，可缓解对高存储量和带宽需求。同时，解码后的音频与原始音频在感知上没有较大差别。

　　在传统的音频处理管道中，压缩音频和增强音频通常由不同的板块执行。但SoundStream是同时进行压缩和增强。

　　今年5月，谷歌发布了一款名Lyra为神经音频编解码器，可用于压缩低比特率的音频。Lyra是由SoundStream利用编码器、解码器和量化器组成的系统构建。

　　但谷歌称，SoundStream仍处于试验阶段，后续计划是还会更新Lyra的版本，更新后音频质量会更高，复杂性也降低。

　　“当人们在传输音频时，有效的压缩是必要的。SoundStream是改进机器驱动的音频编解码器的重要一步，它的性能已优于最先进的Opus和EVS编解码器，并可以根据需要增强音频。”谷歌科研人员Neil Zeghidour说道。

　　谷歌另一名科研人员Marco Tagliasacchi也在博客中写道，通过将SoundStream与Lyra集成，开发者可以利用现有的工具来进行研发，既很好利用资源，又能提供更好的音质。

上一条：“祝融号”火星车完成既定探测任务

下一条：今年国务院将为企业减负超万亿元降费占六成