新闻
您现在的位置:首页 > 新闻 > 聪明的捉迷藏AI学习使用工具并违反规则
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

聪明的捉迷藏AI学习使用工具并违反规则

发布时间:2019/09/18 新闻 浏览次数:649

 
OpenAI的最新研究将其机器学习代理放在一个简单的捉迷藏游戏中,在那里他们追求巧妙的军备竞赛,以意想不到的方式使用物体来实现他们的目标或被看到的目标。这种类型的自学AI也可以在现实世界中证明是有用的。
该研究旨在并成功地研究了机器学习代理学习复杂,真实世界相关技术的可能性,而不受研究人员建议的任何干扰。
像识别照片中的物体或发明合理的人脸这样的任务是困难和有用的,但它们并不真正反映出在现实世界中可能采取的行动。你可能会说,他们是高度智慧的,因此可以在不离开计算机的情况下提高效率。
尝试训练人工智能使用机器人手臂抓住杯子并将其放入碟子中要比人们想象的要困难得多(而且只能在非常特殊的情况下完成);真实的物理世界的复杂性使得纯粹的智力,计算机限制的任务学习几乎是不可能的。
与此同时,中间任务并不一定完全反映现实世界,但仍然与之相关。一个简单的方法可能是如何在呈现多个相关对象或人物时更改机器人的面部。您不需要进行一千次物理试验就知道它应该自行旋转或相机,以便它可以看到它们,或者在它们之间切换,或者其他任何东西。
OpenAI对其婴儿ML代理人的捉迷藏挑战就是这样:一个简单规则的游戏环境(称为Polyworld),然而它使用真实世界相邻的物理和输入。如果AI可以自学导航这个简化的现实,也许他们可以通过一些修改将这些技能转移到全面的现实。
无论如何,这是实验背后的想法,但它本身就足够有趣。游戏让两个团队在一个小型3D竞技场中相互对抗,这个竞技场中有一些随机生成的墙和物体。在其中产生了几个代理商,并且“隐藏者”被给予几秒钟以熟悉环境和隐藏。它们还可以与物体相互作用,将它们推到一起并将它们锁定到位。一旦“寻找者”抬头,他们就有一定的时间来发现躲藏者。
所有的机器学习程序都被告知了基本的感官 – 每个代理人都有一个世界的视图和一种“激光雷达”来告诉他们附近物体的位置 – 以及他们可以移动物体的知识。但除此之外,当他们成功完成工作时,无论是寻求还是隐藏,他们都被赋予了一个观点 – 这就是他们的动力。
从这些基本的开始出现了非常有趣的结果。起初,团队基本上是随机移动的。但是,在数百万场游戏中,躲藏者发现通过某种方式移动 – “粗暴地”逃跑 – 他们可以更频繁地增加他们的积分。因此军备竞赛开始了。
由于躲避者逃跑,寻求者开始发展更有条理的追求行为。但随后出现了这些工具。
Hiders发现他们可以在场上推动和拉动物体,并开始从中制造堡垒。
寻求者通过使用在场上发现的斜坡来提升物体并使堡垒崩溃。
当寻求者仍然在计数并且窃取他们或将他们锁定到位时,隐藏者开始寻找斜坡(锁定不能被对方团队的代理人撤消)。有趣的是,这涉及一定程度的分工,因为通常没有足够的时间让两个躲藏者出去寻找斜坡;一个人必须准备堡垒而另一个人进行斜坡巡逻。
OpenAI团队认为这可能就是它的结束,但寻求者学会了利用游戏世界的一个意想不到的特征。他们发现他们可以在骑在它上面时“推”一个盒子,这意味着他们可以将它放在斜坡附近,爬上它,然后在整个场地“冲浪”并找到那些顽皮的躲藏者。
当然,隐藏者通过锁定他们没有使用的每个物体来构建他们的堡垒来做出反应 – 而这似乎是该游戏策略的终点。
那有什么意义呢?正如本文作者所解释的那样,这就是我们回合的方式。
由于自然选择导向的生物之间的共同进化和竞争,地球上的大量复杂性和多样性得到了发展。当一个新的成功策略或突变出现时,它会改变邻近代理需要解决的隐式任务分配,并为适应创造新的压力。这些进化的军备竞赛创造了隐含的自动竞赛,竞争代理人不断为彼此创造新的任务。
在物理接地和开放式环境中诱导自动关系最终可以使代理人获得无限数量的与人类相关的技能。
换句话说,让AI模型以无人监督的方式竞争可能是一种更好的方式来开发有用和强大的技能,而不是让他们自己蹒跚学步,提取一个抽象的数字,如探索的环境百分比等。
人类越来越难以甚至不可能通过参数化并控制它与环境的相互作用来指导AI能力的各个方面。对于复杂的任务,如机器人在拥挤的环境中航行,有很多因素让人类设计行为可能永远不会产生这些代理人在日常生活中取代其所必需的那种复杂性。
但是他们可以互相教授,就像我们在这里和在GAN中看到的那样,在创造或探测真实媒体的过程中,一对决斗性的AI会打败对方。 OpenAI的研究人员认为,在其他方法过于缓慢或结构化的许多情况下,“多智能自动课程”或自学教师是前进的方法。他们得出结论:
“这些结果激发了人们的信心,即在更加开放和多样化的环境中,多智能体动态可能导致极其复杂和与人类相关的行为。”

姓 名:
邮箱
留 言: