新闻
您现在的位置:首页 > 新闻 > Facebook通过淘汰弱者来加快AI培训
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

Facebook通过淘汰弱者来加快AI培训

发布时间:2020/01/23 新闻 浏览次数:892

 
培训人工智能代理以完成复杂的3D世界之类的工作在计算上既昂贵又耗时。为了更好地创建这些可能有用的系统,Facebook工程师从本质上将最慢的组件留在了后面,从而获得了巨大的效率收益。
这是公司对“嵌入式AI”的新关注的一部分,“嵌入式AI”是指可以与其周围环境进行智能交互的机器学习系统。这可能意味着很多事情,例如,使用对话上下文来响应语音命令,还可能包括更微妙的事情,例如机器人知道它进入了错误的房间。正是为什么Facebook如此感兴趣,以至于我将由您自己猜测,但事实是,他们已经招募并资助了认真的研究人员,以研究AI工作的这一领域和相关领域。
要创建这样的“具体化”系统,您需要使用合理的现实世界传真对其进行培训。谁能指望从未见过真正走廊的AI了解墙壁和门是什么。考虑到实际机器人在现实生活中的移动速度有多慢,您不能期望他们在这里学习课程。这就是导致Facebook创建Habitat的原因,Habitat是一组模拟的真实世界环境,具有足够的真实感,以至于AI通过导航来学习到的内容也可以应用于真实世界。
Facebook正在为AI创建照片般逼真的家,以便他们在其中工作和学习
这种模拟器在机器人技术和AI培训中很常见,因此也很有用,因为作为模拟器,您可以同时运行它们的许多实例-对于简单的实例,可以同时运行数千个实例,每个实例中都有一个代理,试图解决一个问题。问题,并最终将其发现报告给派遣该问题的中央系统。
不幸的是,与更简单的虚拟环境相比,逼真的3D环境使用了大量计算,这意味着研究人员只能使用少数几个同时实例,从而使学习速度相对缓慢。
Facebook研究人员由Dhruv Batra和Erik Wijmans领导,前者是佐治亚理工学院的教授,而后者则是佐治亚理工学院的博士生,他们找到了一种以一个或多个数量级的速度加快这一过程的方法。结果是,一个AI系统可以从起点到目标导航3D环境,成功率为99.9%,几乎没有错误。
简单的导航是工作中的“嵌入式AI”或机器人的基础,这就是为什么团队选择在不增加任何额外困难的情况下进行跟踪的原因。
“这是首要任务。忘了回答问题,忘了上下文-您能从A点到达B点吗?如果代理商有地图,这很容易,但是没有地图,这是一个开放的问题。” Batra说。 “导航失败意味着建立在其之上的任何堆栈都将崩溃。”
他们发现,问题在于训练系统花太多时间等待慢速击球。也许称他们为不公平–这些都是AI代理,无论出于何种原因,他们都无法迅速完成任务。

 
Wijmans解释说:“不一定是他们学习缓慢。” “但是,如果您要模拟一居室公寓的导航,那比导航十居室的公寓要容易得多。”
中央系统旨在等待所有派遣的代理完成其虚拟任务并进行报告。如果单个座席花费的时间比其余时间长10倍,则意味着系统在等待时浪费了大量时间,因此它可以更新其信息并发出新的批处理。

 
这个小的解释性gif图像显示了当一个特工陷入困境时,它如何延迟其他人从其经验中学习。
Facebook团队的创新在于,在这些不幸的落后者完成之前,将它们聪明地切断。经过一段时间的仿真后,他们就完成了,并将收集到的所有数据添加到存储库中。
Wijmans说:“所有这些工人都在奔波,他们都在做自己的事,而且他们彼此交谈。” “一个人会告诉其他人,‘好吧,我快完成了,’他们都会汇报他们的进度。任何看到他们落后于其他人的人都会减少他们在进行大规模同步之前所做的工作量。”
在这种情况下,您可以看到每个工作人员同时停止并同时共享。
如果机器学习的代理人感到难受,我肯定会在这一点上发生,并且确实该代理确实会受到系统的“惩罚”,因为它不会像其他代理那样获得虚拟的“强化”。拟人化的术语使它比实际的更人性化-本质上效率低下的算法或置于困难环境中的算法的重要性被降级。但是他们的贡献仍然很有价值。
Wijmans解释说:“无论是成功还是失败,我们都利用工人积累的所有经验,无论是成功还是失败,我们仍然可以从中学到东西。”
这意味着没有浪费的周期,一些工人在等待其他工人完成工作。按时完成任务需要更多的经验,这意味着下一批稍好一点的工人离职的时间要早​​得多,这是一个自我强化的周期,可以带来可观的收益。
在他们进行的实验中,研究人员发现,该系统俗称“分散式分布式近端策略优化”或DD-PPO,似乎可以理想地扩展规模,其性能几乎呈线性增长,而更多的计算能力专用于该任务。也就是说,将计算能力提高10倍可将结果提高近10倍。另一方面,标准算法导致扩展非常有限,在这些情况下,由于这些复杂的仿真器自身会给自己造成束缚,因此计算能力的10倍或100倍只会对结果产生小幅提升。
WTF是计算机视觉吗?
这些有效的方法使Facebook研究人员可以生成代理,这些代理可以在分配的时间内以99.9%的可靠性解决虚拟环境中的点对点导航任务。他们甚至表现出了对错误的鲁棒性,找到了一种方法来快速识别出自己犯了一个错误的错误,然后反过来。
研究人员推测,代理商已经学会了“利用结构规律性”,这句话在某些情况下意味着AI知道了如何作弊。但是Wijmans澄清说,他们使用的环境更有可能具有一些实际的布局规则。
他说:“这些都是我们数字化的真实房屋,因此他们正在学习有关西式房屋的布局方式的知识。”就像您不希望厨房直接进入卧室一样,人工智能也学会了识别其他模式并做出其他“假设”。
下一个目标是找到一种方法,使这些代理使用更少的资源来完成其任务。每个特工都有一个虚拟的摄像机,可以使用它导航,并提供普通和深度的图像,但还有一个可靠的坐标系来指示其行进的位置,以及始终指向目标的指南针。如果只是这样总是那么容易!但是直到这个实验,即使有了这些资源,即使有更多的训练时间,成功率也要低得多。
人居本身也获得了具有交互性和可定制性的新鲜涂料。

 
通过各种虚拟化视觉系统看到的栖息地。
Wijmans解释说:“在进行这些改进之前,人居是一个静态的世界。” “特工可以移动并撞到墙壁上,但不能打开抽屉或敲桌子。我们之所以构建它,是因为我们需要快速,大规模的仿真-但是,如果您要解决“从办公桌上拿起笔记本电脑”这样的任务,最好能实际拿起笔记本电脑。”
因此,现在,“人居”允许用户将对象添加到房间,向这些对象施加力,检查碰撞等。毕竟,现实生活比无摩擦的无摩擦3D结构滑行更为重要。
这些改进将使“人居”成为一个更强大的实验平台,并且还将使受过训练的特工能够将其学习成果直接转移到现实世界中-团队已经开始着手此事,并将很快发表论文。