推理

话题		回复	浏览量	活动
Mit 提出 vpo：向量化奖励替代标量，让 llm 测试时搜索保持多样性常规强化学习 , ai研究 , llm , 后训练 , 推理		0	1	2026 年5 月 23 日