IPO
您现在的位置:首页 > IPO > 研究人员开发了在强化学习中提高样本效率的技术

研究人员开发了在强化学习中提高样本效率的技术

发布时间:2020/02/13 IPO 浏览次数:81

 
在强化学习中,目标通常是促使AI驱动的代理通过奖励系统完成任务。这可以通过学习从状态到最大化预期收益(策略梯度)的动作的映射(策略)来实现,或者通过计算给定状态-动作对的预期收益来推断这种映射来实现。
基于模型的强化学习(MBRL)旨在通过从代理与环境的交互中学习动态模型来改善此情况,该模型可用于许多不同任务(也称为可转移性)并用于计划。为此,谷歌,牛津大学和加州大学伯克利分校的研究人员开发了一种方法,即“探索策略一”(对欧内斯特·克莱恩(Ernest Cline)的热门小说“就绪玩家一”的暗示不那么点头)-通过探索获取用于训练世界模型的数据共同优化奖励和减少模型不确定性的政策。最终结果是,用于数据收集的策略在真实环境中也能很好地执行,并且可以用于评估。
Ready Policy One采用主动学习方法,而不是专注于优化。换句话说,它试图直接学习最佳模型而不是学习最佳策略。量身定制的框架使Ready Policy One可以适应探索的水平,以在最少的样本数量中改进模型,并且当输入数据类似于已采集的数据时,一种机制会在任何给定的收集阶段停止收集新样本。
在一系列实验中,研究人员评估了他们针对MBRL的主动学习方法是否比现有方法更具样本效率。特别是,他们在研究公司OpenAI的Gym环境中对一系列连续控制任务进行了测试,发现与最新模型架构结合使用,Ready Policy One可以带来“最先进”的效率。
该研究的合著者写道:“我们对这项工作的许多未来方向感到特别兴奋。” “最明显的是,由于我们的方法与MBRL的其他最新进展正交,[Ready Policy One]可以与最新的概率体系结构相结合……此外,我们可以采用分层方法来确保我们的勘探策略保持核心行为,但在某个遥远的未开发区域最大化熵。这将需要行为表示以及行为空间中的距离的一些概念,并且可能会导致采样效率提高,因为我们可以更好地针对特定的状态-动作对。”