新闻
您现在的位置:首页 > 新闻 > IBM的AI通过5分钟的交谈就能产生高质量的声音
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

IBM的AI通过5分钟的交谈就能产生高质量的声音

发布时间:2019/10/02 新闻 浏览次数:1905

 

训练功能强大的文本到语音模型需要足够强大的硬件。OpenAI最近发布的一项研究将这一观点推向了现实-它发现自2012年以来,最大规模运行中使用的计算量增长了30万倍以上。为了追求要求不高的模型,IBM的研究人员开发了一种用于语音合成的新的轻量级和模块化方法。他们说,通过学习说话者语音的不同方面,它可以实时合成高质量的语音,从而可以以少量的数据适应新的演讲风格和语音。

IBM研究人员Zvi写道:“深度学习的最新进展通过更有效地学习说话者的语音和说话方式以及更自然地生成高质量的输出语音,极大地改善了语音合成(TTS)系统的开发。”Kons,SlavaShechtman和AlexSorin在博客上发表了伴随着Interspeech2019上发表的预印本的论文。“但是,要生成这种高质量的语音,大多数TTS系统都依赖于难以训练和执行的大型和复杂的神经网络模型。即使使用GPU,也不允许实时语音合成。为了解决这些挑战,我们的…团队开发了一种基于模块化体系结构的神经语音合成新方法。”

IBM团队的系统由三个相互联系的部分组成:韵律特征预测器,声学特征预测器和神经声码器。韵律预测位可学习语音样本的持续时间,音调和能量,以更好地表达说话者的风格为目标。至于声音特征的产生,它会在训练或适应数据中创建说话人声音的表示,而声码器会从声音特征中生成语音样本。

基于来自目标说话者的少量数据,所有组件一起工作,以通过重新训练使合成语音适应目标说话者。在一项涉及志愿者的测试中,志愿者被要求收听并评估成对的合成语音和自然语音样本的质量,该团队报告说,该模型保持了与原始说话者相同的高质量和相似性,而语音仅需五分钟即可接受训练。

这项工作是IBM新的WatsonTTS服务的基础,可以在这里听到。(从下拉菜单中选择“V3”语音。)以下是示例:使用上/下箭头键增加或减少音量。

这项新研究是在IBM科学家详细介绍了将AI语音识别培训时间从一周减少到11个小时的自然语言处理技术之后的几个月。另外,在5月,IBM团队完成了一个新颖的系统的总结,该系统在广播新闻字幕任务上实现了“行业领先”的结果。

姓 名:
邮箱
留 言: