三机构团队提出生成建模新框架 vdt，将最优控制与最优传输统一为线性规划，路径更直、推理更快

ref · 22 مايو 2026، 5:06م

庞培法布拉大学（UPF）研究员 Pablo Moreno-Muñoz 和 Gergely Neu（ICREA），联合苏黎世联邦理工学院（ETH Zürich）的 Adrian Müller，于 5 月 21 日在 arXiv 发表论文（arXiv:2605.22507），提出"价值驱动传输"（Value-Driven Transport，VDT）生成建模新框架。该框架将测度传输问题建模为离散时间随机控制问题，并将其重新表述为一个线性规划（LP）：LP 的对偶变量恰好对应控制问题的最优价值函数，而最优价值函数直接编码了最优控制策略，由此将最优控制与强化学习（RL）、最优传输和随机原对偶优化三者统一于同一理论框架下。基于这一 LP 结构，研究者开发了无需仿真的原对偶算法，近似求解最优价值函数，再从中提取 VDT 控制策略。

与当前主流的流模型（flow matching）、扩散模型和薛定谔桥（Schrödinger bridge）相比，VDT 策略生成的传输路径更接近直线，可快速稳健地仿真，同时无需直接参数化控制漂移项，支持条件生成和无分类器引导等与扩散、流模型完全相同的扩展方式。Gergely Neu 在 X 上发帖介绍时评论：“也许有一天我们不再需要工程化设计奖励了”，暗示该框架对强化学习奖励设计方向的更广泛启示。论文已附图示实验结果，代码暂未公开。

arXiv | X (@neu_rips)