新闻
您现在的位置:首页 > 新闻 > 生成对抗网络:什么是GAN以及它们的发展方式
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

生成对抗网络:什么是GAN以及它们的发展方式

发布时间:2019/12/27 新闻 浏览次数:865

 
也许您已经读过有关AI的信息,它能够产生人性化的语音或生成难以与现实照片区分开的人物图像。这些系统通常基于生成对抗网络(GAN),生成对抗网络是由两部分组成的AI模型,该模型由生成样本的生成器和试图区分生成的样本与真实样本的鉴别器组成。这种独特的安排使GAN能够实现令人印象深刻的媒体综合壮举,从创作旋律,将绵羊换成长颈鹿,再到滑冰者和足球运动员的幻觉镜头。实际上,正是由于这种能力,GAN才被用于产生有问题的内容,例如Deepfake,这是一种将人们带入现有媒体并将其替换为他人形象的媒体。
GAN的演变有些漫长而曲折,并且一直持续到今天。GAN的演变是Facebook十年来最有趣的想法。它们有其不足之处,但是GAN仍然是当今使用的最通用的神经网络体系结构之一。
两种算法相互冲突的想法起源于计算机科学领域的杰出研究者亚瑟·塞缪尔(Arthur Samuel),他将“机器学习”一词广为人知。在IBM期间,他设计了一款跳棋游戏-Samuel Checkers-play Program -这是成功进行自学的第一个方法,部分是通过估计双方在给定位置上获胜的机会。
但是,如果塞缪尔(Samuel)是GAN的祖父,那么前Google Brain研究科学家,苹果公司特殊项目组(Apple Special Projects Group)机器学习主管Ian Goodfellow可能就是他们的父亲。 Goodfellow及其同事在2014年的开创性研究论文中简称为“生成对抗网络”,描述了基于对抗网络的生成模型的第一个可行实现。
古德费洛经常说他受到噪声对比估计的启发,噪声对比估计是通过将数据与定义的噪声分布(即表示损坏或失真的数据的数学函数)进行比较来学习数据分布的一种方法。噪声对比估计使用与GAN相同的损失函数,换句话说,就模型预期预期结果的能力而言,使用相同的性能度量。
当然,Goodfellow并不是唯一从事对抗性AI模型设计的人。 Dalle Molle人工智能研究所副所长Juergen Schmidhuber提倡可预测性最小化,该技术通过编码器对分布进行建模,该编码器将目标函数(指定系统要解决的问题的函数)最大化,而预测器则将其最小化。它采用了所谓的最小最大决策规则,该规则将最坏情况下的可能损失(最大损失)尽可能地减小到最小。
这就是建立GAN的范例。
GAN架构
再次,GAN由两部分组成:生成器和鉴别器。生成器模型从使用分布采样的随机噪声中生成合成示例(例如,图像),然后将其与来自训练数据集的真实示例一起馈送到鉴别器,以尝试区分两者。生成器和判别器两者的能力都得到了改善,直到判别器无法以高于50%的期望准确度的准确度从合成示例中分辨出真实示例为止。
GAN以无人监督的方式进行训练,这意味着它们无需参考已知,标记或注释的结果即可推断出数据集中的模式。有趣的是,鉴别器的工作会告知生成器-鉴别器每次正确识别合成作品时,都会告诉生成器如何调整其输出,以便将来变得更加现实。
在实践中,GAN由于其架构而遭受许多缺点。生成器模型和鉴别器模型的同时训练本质上是不稳定的。有时参数(模型内部的配置值)会波动或不稳定,这并不奇怪,因为每次参数更新后,要解决的优化问题的性质都会发生变化。替代地,生成器崩溃,并且它开始生成外观上大致均匀的数据样本。
生成器和鉴别器还存在互相压倒的风险。如果生成器过于精确,则会利用鉴别器中的弱点导致不希望的结果,而如果鉴别器过于精确,则会阻碍生成器向收敛的方向发展。
缺乏训练数据也有可能阻碍GAN在语义领域的发展,在这种情况下,GAN指的是对象之间的关系。例如,当今最好的GAN努力调和手掌和握持物体之间的差异-大多数人在几秒钟内就做出了区分。
但是,正如英特尔AI实验室高级主管唐翰林(Hanlin Tang)在电话采访中向VentureBeat解释的那样,新兴技术克服了这些限制。一个需要将多个鉴别器构建到模型中,并根据特定数据进行微调。另一个涉及提供鉴别器密集的嵌入表示或数据的数字表示,以使它们具有更多可从中提取的信息。
Tang说:“并没有很多精心挑选的数据集开始……将GAN应用于其中。” “ GAN只是跟随数据集的前进方向。”
关于计算,IBM多模式算法和引擎小组的研究人员Youssef Mroueh正在与同事合作,开发被称为“小型GAN”的轻量级模型,以减少训练时间和内存使用量。他们的大部分研究集中在麻省理工学院-IBM Watson AI实验室,这是麻省理工学院和IBM之间的联合AI研究工作。
“(这是一个具有挑战性的业务问题:我们如何在没有所有计算和麻烦的情况下更改建模)?” Mroueh说。 “这就是我们正在努力的方向。”
 
Nvidia开发的模型StyleGAN通过学习面部姿势,雀斑和头发等属性,生成了虚构人物的高分辨率头像。新发布的版本-StyleGAN 2-在体系结构和培训方法方面进行了改进,从感知质量的角度重新定义了最先进的技术。
在2019年6月,Microsoft研究人员详细介绍了ObjGAN,这是一种新颖的GAN,可以理解标题,草图布局并根据措辞改进细节。一项相关研究的合著者提出了一个名为StoryGAN的系统,该系统可以从段落中合成情节提要。
这样的模型已经投入生产。初创公司Vue.ai的GAN着眼于服装特征,并学会产生逼真的姿势,肤色和其他特征。从服装的快照,它可以生成各种尺寸的模型图像,其速度是传统照片拍摄速度的五倍。
在其他地方,GAN已应用于超分辨率(图像上采样)和姿态估计(对象变换)的问题。汤说,他的一个团队使用GAN训练模型,将卫星的200 x 200像素图像放大到1,000 x 1,000像素,并生成看起来好像是从其他角度捕获的图像。
卡内基·梅隆大学(Carnegie Mellon)的科学家去年演示了Recycle-GAN,这是一种数据驱动的方法,用于将一个视频或照片的内容传输到另一个。在对人类受试者的镜头进行训练时,GAN生成的剪辑捕获了微妙的表情,例如酒窝和被摄对象微笑并张开嘴巴时形成的线条。
最近,总部位于首尔的Hyperconnect的研究人员发表了MarioNETte,该文件合成了通过人的动作动画制作的重新生成的面孔,同时保留了面孔的外观。
在方程的对象合成方面,谷歌和麻省理工学院的计算机科学与人工智能实验室(CSAIL)开发了GAN,可以生成具有逼真的照明和反射的3D模型图像,并可以进行形状和纹理编辑以及视点移动。
视频
借助涉及GAN和新颖数据集的最新方法,仅需几个视频帧就可以预测将来的事件-曾经被认为是不可能完成的任务。
DeepMind上有关该主题的最新论文之一详细介绍了AI片段生成领域中的最新进展。研究人员说,借助“计算效率高”的组件和技术以及新的量身定制的数据集,他们表现最佳的模型-Dual Video Discriminator GAN(DVD-GAN)可以生成“显着保真度”的相干256 x 256像素视频最长48帧。
为了改变视频合成公式,Cambridge Consultants去年演示了一种称为DeepRay的模型,该模型发明了视频帧以减轻由于雨水,灰尘,烟尘和其他碎屑而引起的失真。
艺术品
GAN不仅具有生成图像和录像的能力。在正确的数据集上接受培训后,他们便可以重新制作艺术品。
印度海得拉巴技术学院和Sri Sathya Sai高等学院的研究人员设计了一种名为SkeGAN的GAN,可以生成基于笔触的猫,鞭炮,蚊子和瑜伽姿势的矢量速写。
荷兰马斯特里赫特大学的科学家创造了一种GAN,该GAN可以用12种不同的颜色之一制作徽标。
人机交互研究人员,卡内基·梅隆大学毕业生Victor Dibia训练了GAN来合成非洲部落面具。
同时,爱丁堡大学感知研究所和天文学研究所的一个团队设计了一个模型,该模型可以生成与真实星系的分布密切相关的虚构星系的图像。
3月,Nvidia在加利福尼亚州圣何塞举行的GPU技术会议(GTC)上揭开了GauGAN的面纱,GauGAN是一种对抗性人工智能生成系统,可让用户创建栩栩如生的风景图像。 GauGAN的名字来自后印象派画家保罗·高更(Paul Gauguin),它是对Nvidia去年推出的Pix2PixHD系统的改进,该系统同样具有渲染合成世界的能力,但是在图像中留下了人工痕迹。支持GauGAN的机器学习模型接受了来自Flickr的超过一百万张图像的训练,使它了解了180多个对象之间的关系,包括雪,树,水,花,灌木,丘陵和山脉。实际上,例如,水旁的树木会有反射,并且降水的类型会根据所描绘的季节而变化。
音乐
GAN在结构上非常适合生成媒体,其中包括音乐。
在八月份发表的一篇论文中,来自东京国立信息学研究所的研究人员描述了一种系统,该系统能够根据音节和音符之间的学习关系生成“以歌词为条件的”旋律。
值得一提的是,去年12月,Amazon Web Services详细介绍了DeepComposer,这是一种基于云的服务,利用GAN来填补歌曲中的创作空白。
“很长一段时间以来,[GANs研究]一直致力于改善训练的不稳定性,无论其形式是什么—文本,图像,句子等。工程是一回事,但同时也提出了[正确的]体系结构。” Mroueh说。 “这是很多事情的结合。”
言语
Google和伦敦帝国理工学院的研究人员最近着手创建一个基于GAN的文本语音转换系统,该系统能够匹配(或优化)最先进的方法。他们提出的系统GAN-TTS由神经网络组成,该神经网络通过训练具有567条编码的语音,时长和音高数据的语音语料库来学习产生原始音频。为了使模型能够生成任意长度的句子,合著者对价值44小时的2秒摘要以及为5毫秒摘要计算的相应语言特征进行了采样。由10个辨别器组成的集合(其中一些评估语言条件,而其他评估一般现实主义)则试图区分真实语音和合成语音。
医学
在医学领域,GAN已用于生成其他AI模型(在某些情况下为其他GAN)可以训练的数据,并发明了迄今为止尚未引起人们广泛关注的罕见疾病的治疗方法。
4月,伦敦帝国理工学院,奥格斯堡大学和慕尼黑工业大学寻求合成数据,以一个称为Snore-GAN的模型填补实际数据中的空白。同样,来自英伟达,梅奥诊所以及MGH和BWH临床数据科学中心的研究人员提出了一种模型,该模型可生成患有癌性肿瘤的大脑的合成磁共振图像(MRI)。
总部位于巴尔的摩的Insilico Medicine开创了在具有已知配体(复杂生物分子)但没有靶标(与疾病过程相关的蛋白质)的疾病的分子结构创建中使用GAN的先驱。它的研究人员团队正在积极致力于癌症,皮肤病,纤维化,帕金森氏症,阿尔茨海默氏症,ALS,糖尿病,肌肉减少症和衰老的药物发现计划。
机器人技术
事实证明,GAN可以为机器人技术领域带来很多好处。
经过调整的判别器可以确定是从人类演示的分布还是从综合示例中得出了机器的轨迹。这样,即使仅访问机器人的位置信息,它也可以训练代理准确地完成任务。 (通常,训练机器人定向AI既需要位置数据,又需要动作数据。后者指示随着时间的推移移动了哪些电机。)
Tang说:“使用对抗性损失来训练坐席轨迹并不是一个新主意,但新的想法是允许它使用更少的数据。” “应用这些对抗性学习方法的技巧是弄清歧视者可以访问哪些输入-哪些信息可以避免[被歧视者]欺骗… [在最先进的方法中,歧视者需要获得仅[位置]数据就可以使我们进行专家演示训练,而我们所拥有的只是状态数据。”
汤说,这使训练比以前可能的模型更健壮的模型成为可能,后者仅需要大约二十次人类演示。 “如果减少了鉴别者可以访问的数据量,那么就减少了必须提供给模型的数据集的复杂性。这些类型的对抗学习方法实际上在低数据环境下效果很好。”
Deepfake检测
GAN能够生成令人信服的人物照片和视频,使他们成为虐待的成熟目标。恶意行为者已经使用模型来制作假名人色情作品。
但是初步研究表明,GANs可以根除深层伪造,就像产生它们一样有效。 3月在预印本服务器Arxiv.org上发表的一篇论文描述了spamGAN,它从有限的带注释和无注释数据集中学习。在实验中,研究人员说spamGAN在有限的标记数据上胜过现有的垃圾邮件检测技术,仅对10%的标记数据进行训练,其准确性就达到71%至86%。
未来发展方向
GAN的未来将如何发展?尽管过去十年的研究取得了长足的进步,但Tang提醒说,这仍处于初期。
他说:“ GAN仍然[缺少]非常精细的控制。” “ [那是一个很大的挑战。”
对于Mroueh而言,他认为GAN生成的内容将越来越难以与真实内容区分开。
他说:“我的感觉是这个领域会有所改善。” “将2014年的图像生成与今天的图像进行比较,我没想到它的质量会变得那么好。如果这种进展继续下去,[GANs]将仍然是一个非常重要的研究项目。”