前 DeepMind 副总裁 Nando de Freitas：纯模仿学习可涌现奖励最大化行为，无需设计奖励函数

ref · 22. Mai 2026 um 16:59

前谷歌 DeepMind 副总裁、AI 研究者 Nando de Freitas 于 5 月 22 日在其个人研究网站 love4all.ai 发布研究笔记，给出了一个强化学习（RL）核心问题的肯定答案：一个在交互过程中学习的模仿学习者，在完全不接触标量奖励标签的情况下，能否仅凭"世界写入的偏好证据"（world-written preference evidence）习得等价于期望奖励最大化的行为？研究的结论是"是"——前提条件是学习者将自身的动作视为"干预"（intervention）而非单纯的"观测"（observation），即引入因果推断视角处理自身行为对环境的影响；若将动作视为普通观测，则该效果不会涌现。实验在其最具参考价值的测试环境中取得了当前最优（SOTA）表现，干预恢复曲线与教师效用曲线高度吻合。de Freitas 表示："也许有一天我们再也不需要工程化设计奖励了。"研究以 PDF、Jupyter 笔记本及 TeX 源码形式公开，代码同步发布于 GitHub。

love4all.ai | GitHub