庞培法布拉大学(UPF)研究员 Pablo Moreno-Muñoz 和 Gergely Neu(ICREA),联合苏黎世联邦理工学院(ETH Zürich)的 Adrian Müller,于 5 月 21 日在 arXiv 发表论文(arXiv:2605.22507),提出"价值驱动传输"(Value-Driven Transport,VDT)生成建模新框架。该框架将测度传输问题建模为离散时间随机控制问题,并将其重新表述为一个线性规划(LP):LP 的对偶变量恰好对应控制问题的最优价值函数,而最优价值函数直接编码了最优控制策略,由此将最优控制与强化学习(RL)、最优传输和随机原对偶优化三者统一于同一理论框架下。基于这一 LP 结构,研究者开发了无需仿真的原对偶算法,近似求解最优价值函数,再从中提取 VDT 控制策略。
与当前主流的流模型(flow matching)、扩散模型和薛定谔桥(Schrödinger bridge)相比,VDT 策略生成的传输路径更接近直线,可快速稳健地仿真,同时无需直接参数化控制漂移项,支持条件生成和无分类器引导等与扩散、流模型完全相同的扩展方式。Gergely Neu 在 X 上发帖介绍时评论:“也许有一天我们不再需要工程化设计奖励了”,暗示该框架对强化学习奖励设计方向的更广泛启示。论文已附图示实验结果,代码暂未公开。