新闻
您现在的位置:首页 > 新闻 > 微软的FastSpeech AI加快了真实声音的产生
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

微软的FastSpeech AI加快了真实声音的产生

发布时间:2019/12/15 新闻 浏览次数:842

 
最先进的文本语音转换模型可以生成在初次收听时听起来几乎像人的片段。实际上,它们支撑了可通过Google Assistant获得的神经声音,以及最近出现在Alexa和亚马逊Polly服务中的新闻播音员声音。但是,由于大多数模型共享相同的合成方法-也就是说,它们从文本生成梅尔频谱图(声音的表示),然后使用声码器(分析和合成语音信号的编解码器)合成语音-遭受相同的缺点,即生成梅尔频谱图的推理速度较慢,以及合成语音中跳过和重复的单词。
为了解决这些以及其他与文本语音转换相关的挑战,微软和浙江大学的研究人员开发了FastSpeech,这是一种新颖的机器学习模型,他们在论文中对此进行了详细介绍(“ FastSpeech:快速,鲁棒和可控的文本语音转换”。 )接受了在温哥华举行的NeurIPS 2019会议。它具有独特的体系结构,不仅与其他文本到语音模型相比在许多方面都提高了性能(其梅尔谱图生成速度比基线快270倍,语音生成速度却快38倍),而且消除了诸如跳字之类的错误,并且可以对速度和断字进行细粒度的调整。
重要的是,FastSpeech包含一个长度调节器,可调节mel声谱图序列与音素序列(感知上不同的声音单元)之间的差异。由于音素序列的长度始终小于mel频谱图序列的长度,因此一个音素对应于几个mel频谱图。然后,长度调节器根据持续时间扩展音素序列,以匹配梅尔频谱图序列的长度。 (补充的持续时间预测器组件确定每个音素的持续时间。)增加或减少与音素对齐的Mel频谱图的数量或音素持续时间,会成比例地调整语音速度。
为了验证FastSpeech的有效性,研究人员针对开源LJ语音数据集对其进行了测试,该数据集包含13,100个英语音频剪辑(相当于24小时的音频)和相应的文字记录。在将语料库随机分为12500个样本进行训练,300个样本进行验证和300个样本进行测试之后,他们对语音质量,鲁棒性等进行了一系列评估。
该团队报告说,FastSpeech的质量几乎与Google的Tacotron 2文本语音转换模型相匹配,并且在鲁棒性方面轻而易举地领先于基于Transformer的领先模型,与基准的34%相比,有效错误率仅为0%。 (因此,健壮性测试仅包含50个句子,尽管是根据语义复杂性选择的。)此外,它能够将生成语音的速度从0.5倍更改为1.5倍,而不会降低准确性。