前 DeepMind 副总裁 Nando de Freitas:纯模仿学习可涌现奖励最大化行为,无需设计奖励函数

前谷歌 DeepMind 副总裁、AI 研究者 Nando de Freitas 于 5 月 22 日在其个人研究网站 love4all.ai 发布研究笔记,给出了一个强化学习(RL)核心问题的肯定答案:一个在交互过程中学习的模仿学习者,在完全不接触标量奖励标签的情况下,能否仅凭"世界写入的偏好证据"(world-written preference evidence)习得等价于期望奖励最大化的行为?研究的结论是"是"——前提条件是学习者将自身的动作视为"干预"(intervention)而非单纯的"观测"(observation),即引入因果推断视角处理自身行为对环境的影响;若将动作视为普通观测,则该效果不会涌现。实验在其最具参考价值的测试环境中取得了当前最优(SOTA)表现,干预恢复曲线与教师效用曲线高度吻合。de Freitas 表示:"也许有一天我们再也不需要工程化设计奖励了。"研究以 PDF、Jupyter 笔记本及 TeX 源码形式公开,代码同步发布于 GitHub。

love4all.ai | GitHub