新闻
您现在的位置:首页 > 新闻 > 亚马逊的AI创造了合成歌手
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

亚马逊的AI创造了合成歌手

发布时间:2019/12/23 新闻 浏览次数:796

 
人工智能和机器学习算法在生成艺术品方面非常熟练,并且可以生成逼真的公寓,人和宠物的逼真的图像。但是很少有人将其调整为唱歌合成或克隆音乐家声音的任务。
来自亚马逊和剑桥大学的研究人员在最近的一篇论文中将他们的集体思想付诸了挑战,他们提出了一种AI系统,该系统比诸如颤音和音符持续时间等功能的先前工作“需要”少得多的建模。它利用Google设计的算法WaveNet来合成声音的频谱图或声音功率谱的表示,另一种模型是结合语音和签名数据来产生的。
该系统包括三个部分,其中第一部分是前端,其将乐谱作为输入并产生音符嵌入(即音符的数字表示)以发送给编码器。第二个模型经过修改以接受上述嵌入,其解码器生成梅尔光谱图。至于第三个也是最后一个组件-WaveNet声码器,它模仿语音中的压力和语调之类的东西-它将声谱图合成为歌曲。
前端对乐谱歌词执行语言分析,从而允许三种可能的元音重音水平,而忽略标点符号。随着时间的流逝,它会使用乐谱本身中指定的音节化信息来发现哪些音素(音质上明显不同的单位)对应于乐谱的每个音符。它还计算每个音符的预期持续时间(以秒为单位),以及乐谱的速度和拍号,将其合并为嵌入。
研究人员用英语汇编了96首歌曲的数据集,用一个女性声音演唱了无伴奏合唱,总共播放了两个小时15秒钟的音乐。 (使用了另外40个小时的记录来训练WaveNet模型和基准系统。)它涵盖了多种流派,包括流行,蓝调,摇滚和一些儿童歌曲,并且这些歌曲被分为20-30秒的长度,每个对应约200个音素。研究人员说,这种分裂减少了训练系统所需的计算量,并使转换样本(通过改变音高和改变速度)以增强语料库变得更加容易。
该研究小组招募了大约22位人类听众来评估合成歌曲的质量,主要是通过听三到五秒的音乐片段并以0到100的等级来评价其自然性。结果表明,所提出的模型获得了平均排名占58.9%,下四分位数中的大多数段包含声码器故障或含糊不清的单词。
尽管在不包含极高或极低音调的较简单的歌曲中表现最佳,该模型仍会唱歌。它还学会了根据音乐环境,复制好颤音并将其应用在正确的位置上-保持更长的音符。就是说,该系统在遇到静默音调时趋于陷入困境,并且偶尔会产生太长或太短的节奏外音符。但是,该论文的合著者认为,可以通过将来的工作使它稳定下来。