Mit 提出 vpo：向量化奖励替代标量，让 llm 测试时搜索保持多样性

ref · 5월 23, 2026, 11:15오전

MIT CSAIL 博士生 Ryan Bahlous-Boldi 等研究者于 5 月 21 日在 arXiv 发布论文（arXiv:2605.22817），提出向量策略优化（Vector Policy Optimization，VPO）算法。现有 LLM 强化后训练主流范式（如 GRPO）将所有奖励信号事先压缩为单一标量，导致模型输出分布熵值偏低、解的多样性不足，在推理时需从多个候选答案中搜索最优解（pass@k / best-of-k）时表现受限。VPO 的核心洞察是：奖励在实践中本就具有向量结构——如代码生成中每个测试用例各自的通过与否、或多种用户偏好模型——通过随机标量化在不同奖励权重分布下联合训练，使模型生成的候选解专门化到奖励空间的不同区域，在保持生成质量的同时提升多样性。VPO 可直接替换 GRPO 的优势估计器，实现成本较低。在 LiveCodeBench 上，VPO 在 pass@k 指标上优于 GRPO 基线，并在多个任务领域保持更高的奖励空间多样性。马里兰大学教授 Soheil Feizi 转发评论指出，标量奖励视角"本质上有损耗"，VPO 与 GEPA 等方法共同指向将"奖励"重新定义为结构化反馈对象的方向。

arXiv | X (@RyanBoldi)