字节跳动 Intelligent Creation Lab 发布并开源多模态统一模型 Lance,以 3B 激活参数(总参数 6B)和最大 128 张 GPU 的训练预算,在单一原生框架内同时支持图像与视频的理解、生成和编辑共六类任务,另支持主体驱动图像/视频生成,开源次日即登上 HuggingFace 热榜前三。在主要基准测试上,Lance 取得 VBench 85.11(视频生成,统一模型中领先)、MVBench 62.0(视频理解,统一模型最优,较第二名 Show-o2 7B 相对提升约 11.3%)、GenEval 0.90(图像生成,统一模型并列最高)、GEdit-Bench 7.30(图像编辑,统一模型最优)。
架构上,Lance 采用双流专家混合(dual-stream MoE)设计:理解路径处理语义视觉 token,生成路径处理 VAE latent token,两者共享统一的交错多模态上下文但保持能力解耦;同时引入模态感知旋转位置编码(MaPE),显式区分同一序列中功能不同的异构视觉 token,缓解多任务联合优化中的位置干扰。训练采用预训练、持续训练、监督微调、强化学习四阶段范式。研究发现,持续引入编辑与主体驱动生成等多任务数据,反而能进一步提升基础生成能力,印证了"任务覆盖完整度"对激发统一模型涌现泛化的正向作用——多任务协同是能力演化的促进机制,而非单纯叠加。模型权重与代码已在 GitHub 与 HuggingFace 开放,论文发布于 arXiv(arXiv:2605.18678)。