字节跳动开源 Lance，3B 参数统一图像视频理解生成编辑六类任务，上线次日登 HF 热榜前三

ref · Mai 22, 2026, 8:34

字节跳动 Intelligent Creation Lab 发布并开源多模态统一模型 Lance，以 3B 激活参数（总参数 6B）和最大 128 张 GPU 的训练预算，在单一原生框架内同时支持图像与视频的理解、生成和编辑共六类任务，另支持主体驱动图像/视频生成，开源次日即登上 HuggingFace 热榜前三。在主要基准测试上，Lance 取得 VBench 85.11（视频生成，统一模型中领先）、MVBench 62.0（视频理解，统一模型最优，较第二名 Show-o2 7B 相对提升约 11.3%）、GenEval 0.90（图像生成，统一模型并列最高）、GEdit-Bench 7.30（图像编辑，统一模型最优）。

架构上，Lance 采用双流专家混合（dual-stream MoE）设计：理解路径处理语义视觉 token，生成路径处理 VAE latent token，两者共享统一的交错多模态上下文但保持能力解耦；同时引入模态感知旋转位置编码（MaPE），显式区分同一序列中功能不同的异构视觉 token，缓解多任务联合优化中的位置干扰。训练采用预训练、持续训练、监督微调、强化学习四阶段范式。研究发现，持续引入编辑与主体驱动生成等多任务数据，反而能进一步提升基础生成能力，印证了"任务覆盖完整度"对激发统一模型涌现泛化的正向作用——多任务协同是能力演化的促进机制，而非单纯叠加。模型权重与代码已在 GitHub 与 HuggingFace 开放，论文发布于 arXiv（arXiv:2605.18678）。

ByteDance Research | arXiv