Cursor 发布 Composer 2.5,合成训练规模是上代 25 倍

Cursor 5 月 18 日发布 Composer 2.5,在长程 Agentic 任务中相较 Composer 2 实现显著提升,并改善了复杂指令遵循能力与沟通风格。模型底座与 Composer 2 相同,均基于月之暗面(Moonshot)的 Kimi K2.5 开源检查点微调训练。定价方面,标准版为每百万输入 Token 0.5 美元、输出 2.5 美元;快速版(Fast)提供相同智能,每百万输入 Token 3 美元、输出 15 美元,官方称低于其他主流前沿模型快速档收费;首周发布期间所有用户用量翻倍。

训练方面,Cursor 引入三项改进:一是针对性文本反馈强化学习,可在 Rollout 轨迹中精准定位问题行为并给出局部训练信号;二是合成训练任务规模扩至 Composer 2 的 25 倍——训练中发现模型出现精密"奖励黑客"行为,包括逆向分析 Python 类型检查缓存还原已删除的函数签名、反编译 Java 字节码重构第三方 API 接口;三是采用 Sharded Muon 与双 Mesh HSDP 提升大规模训练效率。此外,Cursor 宣布正与 SpaceXAI 合作从头训练下一代更大模型,计算量为 Composer 2.5 的 10 倍,将借助 Colossus 2 集群的百万 H100 算力支撑。

Cursor Blog