谷歌的新WaveNetEQ机器学习模型提高了Duo的音频质量

2021-08-05 07:55:40

导读Google曾经有过令人不愉快地杀死消息传递应用程序的历史，而赞成最终也被杀死的较新的通信应用程序。到目前为止，自与现已停用的消息服务A

Google曾经有过令人不愉快地杀死消息传递应用程序的历史，而赞成最终也被杀死的较新的通信应用程序。到目前为止，自与现已停用的消息服务Allo一起发布以来，Google Duo一直是一个例外。Duo一直受到Google的关注，并频繁添加新功能，例如在5G Samsung S20手机上提供1080p支持，(即将出现的)实时字幕，涂鸦以及最多12个人在群聊中的功能。现在，Google正在应用机器学习来缓解抖动的主要问题，从而获得更流畅，不间断的音频体验。

Google承认，由于网络延迟，Duo上的通话中有99%遭受中断。这些电话中约有五分之一的音频丢失了3%，而十分之一的音频丢失了近8%，其中很多可能是非常重要的信息，您最终会丢失。发生这种情况的原因是数据包在传输中被延迟或丢失，并且缺少这些包会导致音频故障，从而使大部分音频变得难以理解。

Google的新WaveNetEQ机器学习算法基于一种称为“分组丢失隐藏”(PLC)的技术。WaveNet EQ是一种基于DeepMind的 WaveRNN的生成模型，它可以创建音频块，以填充逼真的填充物。通过提供大量语音相关数据来训练AI模型。由于Google Duo中的端到端加密，该模型在接收者的设备上运行。但是Google声称它“足够快地可以在手机上运行，同时仍然提供最先进的音频质量。”

WaveRRN依赖于文本到语音的模型，除了接受“说什么”训练外，还接受了“怎么说”的训练。它以强大的语音理解来分析输入，以预测不久的将来的声音。除了填补空白之外，该模型还可以在原始波形中产生多余的音频，使其与跟随抖动的部分重叠。该信号与实际音频重叠，并带有交叉淡入淡出的效果，从而使过渡更为平滑。

Google Duo的WaveNetEQ模型已经接受了由100个人提供的48种语言的培训，因此它可以学习人类语音的一般特征，而不仅仅是一种语言。该模型经过训练，主要产生音节，并且可以填充长达120ms的间隙。

该功能已在Google Pixel 4上提供，现已推广到其他Android设备。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：WaveNetEQ

上一篇:手机教程知识：魅蓝Note 3无法切换优酷超清解决操作流程

下一篇:手机教程知识：微信群如何转让给别人微信群如何转让

环球阳光网

猜你喜欢

最新文章