新闻
您现在的位置:首页 > 新闻 > 微软提出可以在笑时改善的AI
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

微软提出可以在笑时改善的AI

发布时间:2019/12/30 新闻 浏览次数:767

 
积极的情感性或描述人们的感受方式(例如感觉,情感和情感)并因此与他人互动的特征已与学习中的兴趣和好奇心以及满意度提高相关。受此启发,一组Microsoft研究人员提出了强化学习的方法,这是一种AI培训技术,利用奖励使系统朝着目标发展并产生积极影响,他们认为这可能会推动探索对于收集对学习至关重要的经验很有用。
正如研究人员所解释的那样,强化学习通常是通过针对预定目标而设计的针对特定政策的奖励来实施的。有问题的是,与与任务无关并迅速表明成功或失败的内在奖励相反,这些外在奖励的范围狭窄且难以定义。
为了奉行一项内在政策,研究人员开发了一个框架,其中包含受人为影响的机制-一种通过愉悦之类的动机来激励主体的机制。使用模拟奖励的计算机视觉系统以及使用数据解决多项任务的另一个系统,它将人类的笑容视为一种积极的情感。
该框架鼓励代理在不陷入危险情况的情况下探索虚拟或现实环境,并且其优点是对任何特定的机器智能应用程序均不可知。积极的内在奖励机制可以预测人类在探索过程中的微笑反应,而顺序决策框架则可以学习通用政策。至于积极的内在情感模型,它会改变动作选择,从而偏向于提供更好的内在奖励的动作,而最终组件则使用在探员探索过程中收集的数据来建立用于视觉识别和理解任务的表示。
为了测试该框架,研究人员从五个主题中收集了数据,这些主题负责用车辆探索数字三维迷宫以及他们每个面孔的同步镜头。 (每个人每个人开车11分钟,总共提供64,000帧。)参与者被告知要探索环境,但是没有其他目标的额外指示,他们的笑容响应是通过开源算法计算和记录的。
基于情感的内在动机模型是使用受试者的数据进行训练的,其中来自车辆仪表板的图像帧作为输入,而微笑概率作为输出。进一步的实验结果表明,该框架提高了安全性,同时实现了有效的学习。与基线相比,研究人员的内在奖励政策在迷宫中的覆盖范围增加了46%,与障碍物的碰撞时间减少了29%。
该论文的共同作者详细介绍了这项工作:“在这里,我们并不是在试图模仿情感过程,而是要证明对像信号这样的情感进行训练的功能可以提高性能。” “总而言之,我们认为,这种受情感机制启发的内在动机的学习框架可以有效地增加勘探过程中的覆盖面,减少灾难性失败的次数,并且所获得的经验可以帮助我们学习用于解决任务(包括深度估算)的一般表示形式,场景分割和草图到图像的翻译。”