新闻
您现在的位置:首页 > 新闻 > 育碧使用AI教汽车在赛车游戏中自我驾驶
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

育碧使用AI教汽车在赛车游戏中自我驾驶

发布时间:2019/12/30 新闻 浏览次数:689

 
强化学习是一种利用奖励来推动软件政策朝着目标发展的AI培训技术,已成功应用于从工业机器人技术到药物发现的领域。但是,尽管包括OpenAI和Alphabet的DeepMind在内的公司已经研究了其在Dota 2,Quake III Arena和StarCraft 2等视频游戏中的功效,但是迄今为止,很少有人像在游戏行业中遇到的那样研究其使用情况。
这大概就是为什么游戏开发商Ubisoft的原型开发空间Ubisoft La Forge在最近的论文中提出了一种算法,该算法能够以“有原则的”和可预测的方式处理离散的,连续的视频游戏动作。他们将其放到“商业游戏”上(可能没有明确提及“ The Crew”或“ The Crew 2”),并报告说它在最新基准测试方面具有竞争力。
“电子游戏中的强化学习应用程序最近在研究领域取得了巨大进步,代理商经过培训可以从像素上玩Atari游戏,或者可以在复杂的不完美信息游戏中与世界上最好的玩家竞争,”该游戏的合著者写道。描述工作的文件。这些系统在视频游戏行业中的使用相对较少,我们认为缺乏可访问性是造成这种情况的主要原因。确实,令人印象深刻的结果……是由大型研究小组产生的,其计算资源远远超出了视频游戏工作室通常所能提供的。”
然后,Ubisoft团队寻求设计一种强化学习方法,以解决视频游戏开发中的常见挑战。他们注意到,数据样本的收集通常会慢很多,并且在代理的运行时性能上存在时间预算约束。
他们的解决方案基于去年年初由加州大学伯克利分校的研究人员提出的“软Actor-关键技术”体系结构,该体系结构比传统的强化学习算法具有更高的样本效率,并且能够稳健地学习推广到未曾见过的条件之前。他们将其扩展到具有连续和离散动作的混合设置,这是视频游戏中经常遇到的情况(例如,当玩家可以自由执行诸如移动和跳跃之类的动作时,每个动作都与目标坐标和方向等参数相关联)。
育碧的研究人员在旨在对强化学习系统进行基准测试的三种环境下评估了他们的算法,其中包括一个简单的类似平台游戏的游戏和两个基于足球的游戏。他们声称其性能略低于行业领先的技术,这归因于建筑怪癖。但是他们说,在单独的测试中,他们成功地将其用于训练具有两个连续动作(加速和转向)和一个二进制离散动作(手刹)的视频游戏机,目的是尽可能快地遵循给定的路径在代理商在培训期间没有遇到的环境中。
研究人员写道:“我们证明了混合型SAC可以成功应用于商业视频游戏中的高速驾驶任务训练汽车。”他进一步指出,他们的方法可以为代理商提供广泛的潜在途径与视频游戏环境进行交互,例如当代理具有与玩家相同的输入时(其控制器可能装有模拟摇杆,该摇杆提供连续的值,并且可以按下按钮以通过组合产生离散的动作)。 “ [这表明]这种算法在视频游戏行业中的实用性。”