强化学习
| トピック | 返信 | 表示 | アクティビティ | |
|---|---|---|---|---|
| Mit 提出 vpo:向量化奖励替代标量,让 llm 测试时搜索保持多样性 |
|
0 | 1 | 2026 年 5 月 23 日 |
| 三机构团队提出生成建模新框架 vdt,将最优控制与最优传输统一为线性规划,路径更直、推理更快 |
|
0 | 1 | 2026 年 5 月 22 日 |
| 前 DeepMind 副总裁 Nando de Freitas:纯模仿学习可涌现奖励最大化行为,无需设计奖励函数 |
|
0 | 1 | 2026 年 5 月 22 日 |
| 阿里巴巴发布闭源模型 Qwen3.7-Max,加大强化学习算力投入 |
|
0 | 1 | 2026 年 5 月 21 日 |
| 两位工程师复现 OpenAI 哥布林问题,训练费用仅 49 美分 |
|
0 | 1 | 2026 年 5 月 21 日 |