IPO
您现在的位置:首页 > IPO > 研究人员开发了在强化学习中提高样本效率的技术
  • 从0到1,这些新锐品牌在抖音做对了什么?

    从0到1,这些新锐品牌在抖音做对了什么?

    发布时间:2021/06/22

    如今的食品饮料行业,新机会往往由新的玩家率先挖掘,他们中的佼佼者将成为行业中极具竞争力的年轻选手,我们称之为新锐品牌。 在漫天的战报中,我们很容易就能找到一个数据猛增的新锐品牌,但挖掘新锐品牌背后的...

  • Gislaved熊牌轮胎正式进入中国市场

    Gislaved熊牌轮胎正式进入中国市场

    发布时间:2021/04/24

    德国马牌轮胎亚太区产品总监Tolga MUTLU介绍Gislaved熊牌新品轮胎 大陆马牌轮胎(中国)有限公司宣布,拥有百年辉煌历史的轮胎品牌 — Gislaved熊牌轮胎正式进入中国市场,进一步夯实德国马牌在华“多品牌”战...

  • 麦当劳中国推出金菠萝雪芭

    麦当劳中国推出金菠萝雪芭

    发布时间:2021/04/23

    麦当劳中国推出首个雪芭类产品 麦当劳中国与国际知名水果品牌都乐首次合作,推出全新夏日新品 — 金菠萝雪芭,为夏日冰品市场增添了一个创新的美味轻食选择。 金菠萝雪芭是麦当劳中国的首个雪芭类产品,使用...

研究人员开发了在强化学习中提高样本效率的技术

发布时间:2020/02/13 IPO 浏览次数:627

 
在强化学习中,目标通常是促使AI驱动的代理通过奖励系统完成任务。这可以通过学习从状态到最大化预期收益(策略梯度)的动作的映射(策略)来实现,或者通过计算给定状态-动作对的预期收益来推断这种映射来实现。
基于模型的强化学习(MBRL)旨在通过从代理与环境的交互中学习动态模型来改善此情况,该模型可用于许多不同任务(也称为可转移性)并用于计划。为此,谷歌,牛津大学和加州大学伯克利分校的研究人员开发了一种方法,即“探索策略一”(对欧内斯特·克莱恩(Ernest Cline)的热门小说“就绪玩家一”的暗示不那么点头)-通过探索获取用于训练世界模型的数据共同优化奖励和减少模型不确定性的政策。最终结果是,用于数据收集的策略在真实环境中也能很好地执行,并且可以用于评估。
Ready Policy One采用主动学习方法,而不是专注于优化。换句话说,它试图直接学习最佳模型而不是学习最佳策略。量身定制的框架使Ready Policy One可以适应探索的水平,以在最少的样本数量中改进模型,并且当输入数据类似于已采集的数据时,一种机制会在任何给定的收集阶段停止收集新样本。
在一系列实验中,研究人员评估了他们针对MBRL的主动学习方法是否比现有方法更具样本效率。特别是,他们在研究公司OpenAI的Gym环境中对一系列连续控制任务进行了测试,发现与最新模型架构结合使用,Ready Policy One可以带来“最先进”的效率。
该研究的合著者写道:“我们对这项工作的许多未来方向感到特别兴奋。” “最明显的是,由于我们的方法与MBRL的其他最新进展正交,[Ready Policy One]可以与最新的概率体系结构相结合……此外,我们可以采用分层方法来确保我们的勘探策略保持核心行为,但在某个遥远的未开发区域最大化熵。这将需要行为表示以及行为空间中的距离的一些概念,并且可能会导致采样效率提高,因为我们可以更好地针对特定的状态-动作对。”