谷歌 I/O 发布 Gemini Omni，任意输入生成并对话编辑视频

ref · 2026 年 5 月 20 日午前 1:20

谷歌 5 月 19 日在 Google I/O 2026 上推出新模型系列 Gemini Omni，定位为"以任意输入创作一切内容"的生成式媒体模型，当前首发重点为视频。Omni 将 Gemini 的推理能力与多模态内容生成融为一体，支持同时以图片、音频、视频和文本组合作为参考输入，以自然语言对话方式生成高质量视频——每条编辑指令均叠加在上一条的基础上，角色形象保持一致，物理规律在多轮对话中持续成立。Omni 具备改进后的直觉物理建模能力（涵盖重力、动能与流体动力学），并可调用 Gemini 在历史、科学、文化等领域的知识储备，将画面叙事与真实语义相结合。此前，谷歌去年推出的 Nano Banana 将 Gemini 智能带入了图片生成与编辑，Omni 则是其在视频领域的全面延伸。

首款落地型号 Gemini Omni Flash 今日起面向全球 Google AI Plus、Pro 与 Ultra 订阅用户开放，渠道包括 Gemini 应用与 Google Flow 视频创作工具；同期在 YouTube Shorts 与 YouTube Create App 上免费向用户推出，未来数周内亦将通过 API 向开发者和企业用户开放。后续将逐步支持图片与音频输出模态，音频编辑功能目前仍在安全评估阶段暂未开放。安全方面，Omni 生成的全部视频均自动嵌入 SynthID 不可见数字水印，可在 Gemini 应用、Chrome 及谷歌搜索中验证；谷歌还推出"数字分身"（Avatar）功能，允许用户生成包含本人形象与声音的视频，并表示正在审慎评估更广泛的语音音频编辑能力再行推进。

Google Blog