NodeInit
推理
话题
回复
浏览量
活动
Mit 提出 vpo:向量化奖励替代标量,让 llm 测试时搜索保持多样性
常规
强化学习
,
ai研究
,
llm
,
后训练
,
推理
0
1
2026 年5 月 23 日