宁德生活圈

网站首页 科技 > 正文

谷歌的WaveNetEQ填补了二人转通话的语音空白

2021-09-16 21:00:32 科技 来源:
导读 谷歌今天详细介绍了一个名为WaveNetEQ的AI系统,该系统最近已部署到其跨平台语音和视频聊天应用Duo中。二重奏组可以逼真地合成短语音片段,

谷歌今天详细介绍了一个名为WaveNetEQ的AI系统,该系统最近已部署到其跨平台语音和视频聊天应用Duo中。

Google的WaveNetEQ填补了二重奏通话中的语音空白

二重奏组可以逼真地合成短语音片段,以替换因互联网连接不稳定而导致的乱码字符。它运行在智能手机上的速度足够快,并提供听起来自然的最高级音频质量,这为未来针对带宽有限的环境进行优化的聊天应用奠定了基础。

正如谷歌解释的那样,为了确保可靠的实时通信,当接收者需要时,有必要处理丢失的数据包(即格式化的数据单元)。(该公司表示,由于网络问题,99%的Duo通话需要处理网络问题,而10%的通话丢失音频时长,超过总音频时长的8%。)

Google的WaveNetEQ填补了二重奏通话中的语音空白

如果新的音频没有连续传输,将会出现音频毛刺和间隙。是的,但是重复相同的音频并不理想,因为它会产生伪像并降低整体通话质量。

谷歌的解决方案WaveNetEQ就是所谓的丢包遏制模块,负责创建数据来填补丢包、过度抖动等意外造成的空白。

在结构上,WaveNetEQ是DeepMind的WaveRNN的修改版本,WaveRNN是一种用于语音合成的机器学习模型,由自回归和条件调整网络组成。

Google的WaveNetEQ填补了二重奏通话中的语音空白

自回归网络通过使每个生成的样本依赖于网络的先前输出来提供短中期语音结构,而调整网络会影响自回归网络以产生与移动速度慢的输入特征一致的音频。

郑重声明:本文版权归原作者所有。转载文章只是为了传播更多的信息。如果作者信息标注有误,请第一时间联系我们修改或删除。谢谢你。


免责声明: 本文由用户上传,如有侵权请联系删除!


标签: