首先返回,然后探索

2025-06-24 16:05来源:本站

  强化学习有望通过仅指定高级奖励功能来自动地解决复杂的顺序决策问题。但是,强化学习算法在通常情况下,简单而直观的奖励提供稀疏和欺骗性2的反馈时。避免这些陷阱需要对环境进行彻底的探索,但是创建可以这样做的算法仍然是该领域的主要挑战之一。在这里,我们假设有效探索的主要障碍源于算法,忘记了如何到达先前访问的州(分离),并且在与之探索之前(出轨)之前未能首先返回州。我们介绍了Go-explore,这是一个算法家族,通过明确“记住”有希望的国家的简单原则直接解决这两个挑战,并在故意探索之前返回到此类状态。Go-explore解决了所有以前未解决的Atari游戏,并在所有硬探索游戏中都超过了最新的现状1,并在蒙特祖玛报仇和陷阱的巨大挑战方面提高了命令级。我们还展示了在稀疏回报的挑选机器人机器人任务上进行探索的实际潜力。此外,我们表明,添加目标条件政策可以进一步提高Go-explore的勘探效率,并使其能够在整个培训中处理随机性。Go-explore的实质性表现表明,记住国家,返回它们并探索它们的简单原则是一种强大而一般的探索方法,这种见解可能对创造真正智能的学习推动者的创造至关重要。

左文资讯声明:未经许可,不得转载。