谷歌的Translatotron是一个模仿人类声音的端到端模型

导读谷歌人工智能今天分享了关于Translatotron的详细信息,Translatotron是一个实验性的人工智能系统,可以直接将一个人的声音翻译成另一种语言

谷歌人工智能今天分享了关于Translatotron的详细信息,Translatotron是一个实验性的人工智能系统,可以直接将一个人的声音翻译成另一种语言。这种方法允许对一个人的声音进行全面的翻译,以保持原说话者的声音。

传统上,语音翻译使用自动语音识别将语音转换为文本,应用机器翻译,然后将文本转换为语音来生成翻译,但Translatotron是一种端到端的翻译模型。研究人员表示,与传统的级联模型相比,Translatotron可以更快地完成翻译并减少复杂性。

“据我们所知,Translatotron是第一个端到端模型,可以直接将一种语言的语音转换为另一种语言的语音。它还可以在翻译的语音中保留源说话者的声音。

衡量机器翻译质量的BLEU评分显示,实验翻译器Otron的质量低于传统级联系统,但翻译器Otron获得了比基线级联翻译更准确的翻译。

机器翻译端到端模型的出现始于2016年法国研究人员在NeuroIPS上接受的一篇论文。

为了使Translatotron能够端到端翻译,研究人员使用序列到序列模型和谱图作为输入训练数据。说话人编码器网络用于捕捉说话人声音的特征,多任务学习用于预测源说话人和目标说话人使用的词汇。

Translatotron在今天发表的题为“使用序列的序列模型的直接语音到语音翻译”的论文中有更详细的阐述。

Translatotron出现在谷歌推出spec扩增一个月后,spec扩增是一种人工智能模型,使用计算机视觉和各种技术从光谱图像中理解单词。

Translatotron可以应用于类似Google Assistant的口译模式,该模式于今年1月首次引入家用音箱。口译模式可以翻译27种语言的听力和发音。像谷歌和微软这样的公司也在利用他们的语言翻译来赢得iOS用户。

Translatotron是谷歌在机器翻译和语言处理方面的最新进展。

上周,在谷歌的I/O开发者大会上,谷歌分享了它为智能手机设备上的机器学习减少了递归神经网络和语言理解模型,这使得谷歌的速度提高了10倍。谷歌还推出了镜头翻译,让你的相机可以翻译100多种语言。

免责声明:本文由用户上传,如有侵权请联系删除!