谷歌 5 月 19 日在 Google I/O 2026 上推出新模型系列 Gemini Omni,定位为"以任意输入创作一切内容"的生成式媒体模型,当前首发重点为视频。Omni 将 Gemini 的推理能力与多模态内容生成融为一体,支持同时以图片、音频、视频和文本组合作为参考输入,以自然语言对话方式生成高质量视频——每条编辑指令均叠加在上一条的基础上,角色形象保持一致,物理规律在多轮对话中持续成立。Omni 具备改进后的直觉物理建模能力(涵盖重力、动能与流体动力学),并可调用 Gemini 在历史、科学、文化等领域的知识储备,将画面叙事与真实语义相结合。此前,谷歌去年推出的 Nano Banana 将 Gemini 智能带入了图片生成与编辑,Omni 则是其在视频领域的全面延伸。
首款落地型号 Gemini Omni Flash 今日起面向全球 Google AI Plus、Pro 与 Ultra 订阅用户开放,渠道包括 Gemini 应用与 Google Flow 视频创作工具;同期在 YouTube Shorts 与 YouTube Create App 上免费向用户推出,未来数周内亦将通过 API 向开发者和企业用户开放。后续将逐步支持图片与音频输出模态,音频编辑功能目前仍在安全评估阶段暂未开放。安全方面,Omni 生成的全部视频均自动嵌入 SynthID 不可见数字水印,可在 Gemini 应用、Chrome 及谷歌搜索中验证;谷歌还推出"数字分身"(Avatar)功能,允许用户生成包含本人形象与声音的视频,并表示正在审慎评估更广泛的语音音频编辑能力再行推进。