Google曾经有过令人不愉快地杀死消息传递应用程序的历史,而赞成最终也被杀死的较新的通信应用程序。到目前为止,自与现已停用的消息服务Allo一起发布以来,Google Duo一直是一个例外。Duo一直受到Google的关注,并频繁添加新功能,例如在5G Samsung S20手机上提供1080p支持,(即将出现的)实时字幕,涂鸦以及最多12个人在群聊中的功能。现在,Google正在应用机器学习来缓解抖动的主要问题,从而获得更流畅,不间断的音频体验。
Google承认,由于网络延迟,Duo上的通话中有99%遭受中断。这些电话中约有五分之一的音频丢失了3%,而十分之一的音频丢失了近8%,其中很多可能是非常重要的信息,您最终会丢失。发生这种情况的原因是数据包在传输中被延迟或丢失,并且缺少这些包会导致音频故障,从而使大部分音频变得难以理解。
Google的新WaveNetEQ机器学习算法基于一种称为“分组丢失隐藏”(PLC)的技术。WaveNet EQ是一种基于DeepMind的 WaveRNN的生成模型,它可以创建音频块,以填充逼真的填充物。通过提供大量语音相关数据来训练AI模型。由于Google Duo中的端到端加密,该模型在接收者的设备上运行。但是Google声称它“足够快地可以在手机上运行,同时仍然提供最先进的音频质量。”
WaveRRN依赖于文本到语音的模型,除了接受“说什么”训练外,还接受了“怎么说”的训练。它以强大的语音理解来分析输入,以预测不久的将来的声音。除了填补空白之外,该模型还可以在原始波形中产生多余的音频,使其与跟随抖动的部分重叠。该信号与实际音频重叠,并带有交叉淡入淡出的效果,从而使过渡更为平滑。
Google Duo的WaveNetEQ模型已经接受了由100个人提供的48种语言的培训,因此它可以学习人类语音的一般特征,而不仅仅是一种语言。该模型经过训练,主要产生音节,并且可以填充长达120ms的间隙。
该功能已在Google Pixel 4上提供,现已推广到其他Android设备。