强化学习

トピック		返信	表示	アクティビティ
Mit 提出 vpo：向量化奖励替代标量，让 llm 测试时搜索保持多样性常规强化学习 , ai研究 , llm , 后训练 , 推理		0	1	2026 年 5 月 23 日
三机构团队提出生成建模新框架 vdt，将最优控制与最优传输统一为线性规划，路径更直、推理更快常规强化学习 , 生成模型 , 论文 , ai研究 , 最优传输		0	1	2026 年 5 月 22 日
前 DeepMind 副总裁 Nando de Freitas：纯模仿学习可涌现奖励最大化行为，无需设计奖励函数常规强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习		0	1	2026 年 5 月 22 日
阿里巴巴发布闭源模型 Qwen3.7-Max，加大强化学习算力投入常规大模型 , 阿里巴巴 , qwen , 强化学习		0	1	2026 年 5 月 21 日
两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分常规 openai , 开源 , rl , 强化学习 , 奖励黑客		0	1	2026 年 5 月 21 日