8月14日消息,据外媒VentureBeat报道,美国时间8月12日,谷歌公司对旗下音频编解码器SoundStream进行了技术详解,该编解码器不仅可以处理不同的类型声音,而且可以提供高质量的音频。同时,SoundStream是首个可以处理语音和音乐的AI编解码器,并且编解码器还能在智能手机上运行。
据了解,SoundStream是一款从端到端的“神经”音频编解码器,可处理的音频包括语音、音乐和环境声音。同时,SoundStream可同时进行压缩和增强音频以消除背景中的噪音。
据谷歌介绍,3kbps SoundStream的性能接近9.6kbps的美国EVS处理器,并且性能超过了12kbps Opus编解码器。此外,在相同比特率下,SoundStream的性能比当前版本的Lyra更好。
用户利用SoundStream来压缩音频,可缓解对高存储量和带宽需求。同时,解码后的音频与原始音频在感知上没有较大差别。
在传统的音频处理管道中,压缩音频和增强音频通常由不同的板块执行。但SoundStream是同时进行压缩和增强。
今年5月,谷歌发布了一款名Lyra为神经音频编解码器,可用于压缩低比特率的音频。Lyra是由SoundStream利用编码器、解码器和量化器组成的系统构建。
但谷歌称,SoundStream仍处于试验阶段,后续计划是还会更新Lyra的版本,更新后音频质量会更高,复杂性也降低。
“当人们在传输音频时,有效的压缩是必要的。SoundStream是改进机器驱动的音频编解码器的重要一步,它的性能已优于最先进的Opus和EVS编解码器,并可以根据需要增强音频。”谷歌科研人员Neil Zeghidour说道。
谷歌另一名科研人员Marco Tagliasacchi也在博客中写道,通过将SoundStream与Lyra集成,开发者可以利用现有的工具来进行研发,既很好利用资源,又能提供更好的音质。