NodeInit
llm
トピック
返信
表示
アクティビティ
Mit 提出 vpo:向量化奖励替代标量,让 llm 测试时搜索保持多样性
常规
强化学习
,
ai研究
,
llm
,
后训练
,
推理
0
1
2026 年 5 月 23 日