生成对抗网络(GAN)是一种通用的AI架构类型,非常适合从有限的数据合成图像,视频和文本。但是由于许多设计挑战,它在音频制作领域的应用并不多,这就是为什么Google和伦敦帝国理工学院的研究人员着手创建一个能够匹配(或匹配)状态的基于GAN的文本到语音系统的原因最先进的方法。他们说,他们的模型不仅可以产生具有“自然”感的高保真语音,而且具有高度可并行性,这意味着与传统的替代方法相比,它更容易在多台机器上进行训练。
“ [最新TTS]模型的显着局限性在于它们难以随时间并行化:它们可以按顺序预测音频信号的每个时间步,这在计算上是昂贵的,而且通常不切实际,”合著者写道。 。“有关TTS神经模型的最新研究集中在通过并行预测多个时间步长来提高并行度。生成并行波形的另一种方法是使用生成对抗网络……据我们所知,GAN尚未大规模应用于非可视域。
研究人员提出的系统GAN-TTS由卷积神经网络组成,该神经网络通过训练具有567个编码的语音,时长和音高数据的语音语料库来学习产生原始音频。为了使模型能够生成任意长度的句子,研究人员对价值44小时的2秒窗口以及为5毫秒窗口计算的相应语言特征进行了采样。
GAN-TTS将卷积神经网络与10个鉴别器集成在一起,这些鉴别器试图区分真实语音和合成语音。一些区分器会考虑语言条件,以衡量生成的音频与输入话语的对应程度,而另一些则忽略条件,只能评估音频的一般真实感。
研究人员首先通过人工评估人员以1,000个句子对GAN-TTS的性能进行了评估。每个人的任务是听长达15秒的语音,并标记句子的主观自然性,然后将他们的分数与Google的尖端WaveNet模型所报告的分数相提并论。另外,研究人员使用新提出的一系列指标对GAN-TTS的性能进行了定量评估。
最后,性能最佳的模型(经过多达100万步的训练)达到了与基线相当的分数,同时每个样本仅需要0.64 MFLOP(每秒数百万个浮点运算)(WaveNet每个样本需要1.97 MFLOP) 。研究人员说,结果“展示了使用GAN进行文本到语音转换的可行性”。
“与最新的文本语音转换模型不同,GAN-TTS经过对抗训练,生成的生成器是前馈卷积网络,”合著者写道。“这允许非常有效的音频生成,这在实际应用中很重要。