MIT CSAIL 博士生 Ryan Bahlous-Boldi 等研究者于 5 月 21 日在 arXiv 发布论文(arXiv:2605.22817),提出向量策略优化(Vector Policy Optimization,VPO)算法。现有 LLM 强化后训练主流范式(如 GRPO)将所有奖励信号事先压缩为单一标量,导致模型输出分布熵值偏低、解的多样性不足,在推理时需从多个候选答案中搜索最优解(pass@k / best-of-k)时表现受限。VPO 的核心洞察是:奖励在实践中本就具有向量结构——如代码生成中每个测试用例各自的通过与否、或多种用户偏好模型——通过随机标量化在不同奖励权重分布下联合训练,使模型生成的候选解专门化到奖励空间的不同区域,在保持生成质量的同时提升多样性。VPO 可直接替换 GRPO 的优势估计器,实现成本较低。在 LiveCodeBench 上,VPO 在 pass@k 指标上优于 GRPO 基线,并在多个任务领域保持更高的奖励空间多样性。马里兰大学教授 Soheil Feizi 转发评论指出,标量奖励视角"本质上有损耗",VPO 与 GEPA 等方法共同指向将"奖励"重新定义为结构化反馈对象的方向。