新闻
您现在的位置:首页 > 新闻 > AWS Polly在美国西班牙语和巴西葡萄牙语中赢得了神经声音
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

AWS Polly在美国西班牙语和巴西葡萄牙语中赢得了神经声音

发布时间:2019/10/25 新闻 浏览次数:775

 
在亚马逊宣布将神经文本语音转换(NTTS)和新闻播报员样式在可将文本转换为语音的云服务Amazon Polly中正式发布的月后,这家西雅图公司今天在美国西班牙语和巴西葡萄牙语中首次推出了两种新的NTTS语音:Lupe和卡米拉就像他们前面的美国英语NTTS语音一样,它们通过识别音调模式来模仿语音中的压力和语调之类的东西。
您可以在Amazon Web Services(AWS)的美国东部(弗吉尼亚北部),美国西部(俄勒冈)和欧盟(爱尔兰)地区使用Camila和Lupe的神经网络版本。标准变体还可以在18个AWS区域中使用,从而使Polly在29种语言中的声音总数达到61种,在标准和神经版本中可用的声音总数在四种语言中达到13种。
根据Amazon文字转语音计划经理Marta Smolarek的说法,新的美国西班牙语语音-Lupe是Polly中的第三种美国文字语音转换-不仅会说西班牙语,而且会讲英语,并且提供完全双语的西班牙语-英语经验。它涵盖了72种英语和西班牙语的音素变体(一种特定语言的感知上不同的声音单位,可将一个词与另一个词区分开),而西班牙语中的波利·佩内洛普(Penélope)和米格尔(Miguel)话机中仅有29种音素。
从首次语音请求(标准或NTTS)开始,在前12个月内,每月最多可免费使用100万个字符来进行“文本语音转换”语音。此后是有偿的事情。
去年年底,亚马逊在一份研究论文中详细介绍了其有关“神经文本到语音”的工作(“数据减少对序列到序列神经TTS的影响”),研究人员在其中描述了一种可以学会采用新的口语风格的系统。只需几个小时的培训-而不是数十个小时,配音演员可能需要按照目标风格进行阅读。
亚马逊的AI模型由两个部分组成。第一个是生成神经网络,它将音素序列转换为声谱图序列,或随时间变化的声音频谱频谱的视觉表示。第二个是将这些频谱图转换为连续音频信号的声码器。
音素到频谱图解释器网络是逐序列的,这意味着它不仅仅从对应的输入中计算输出,而是考虑其在输出序列中的位置。亚马逊的科学家除了使用“样式编码”来识别训练示例中使用的特定说话风格外,还使用音素序列和相应的频谱图序列对其进行了训练。模型的输出被输入到声码器中,该声码器可以从任何说话者那里获取频谱图,而无论它们在训练期间是否可见。
最终结果?一种AI模型训练方法,该方法将大量中性风格的语音数据与仅几个小时的所需样式的补充数据结合在一起,以及一种能够区分语音元素的AI系统,该语音元素既独立于语音风格又独特于此样式。
凭借Neural Text-To-Speech和新闻播音员的风格,亚马逊实际上与Google脱颖而出。Google在2月份在其Cloud Text-to-Speech服务中推出了31种新的WaveNet语音和24种新的标准语音(带来了WaveNet的总数)声音到57)。它在微软中有另一个竞争对手,该公司通过其Azure语音服务API提供三种AI生成的预览语音和75种标准语音。

姓 名:
邮箱
留 言: