谷歌发布旗舰多模态大模型Gemini Omni 可实现“任意输入、任意输出”能力_互联网_资讯

5月20日消息，今日凌晨，在谷歌2026 I/O开发者大会上，官方正式发布全新旗舰级多模态大模型Gemini Omni。

据了解，Gemini Omni主打“任意输入、任意输出”的核心能力，打破传统AI模态割裂局限，实现文本、图像、音频、视频等全模态信息的互通理解与自由生成。

据官方介绍，Gemini Omni依托谷歌成熟的世界模型Genie、图像模型Nano Banana、视频生成模型Veo三大核心技术底座，构建起完整的全模态AI框架。

该模型支持多样化混合输入，用户可将手绘草图、文字描述、图片素材、音频视频等任意形式内容组合输入模型，系统可自主解析信息逻辑、模拟真实物理规则，最终生成高精度、符合现实逻辑的视频、图像、文本等多元化输出内容。

本次发布最大的实用化亮点在于对话式实时编辑能力。不同于传统AI生成工具一次性输出、修改繁琐的痛点，Gemini Omni支持生成过程中的交互式迭代优化。用户完成初始内容生成后，可通过自然语言对话精准调整画面细节，例如替换视频场景、修改物体材质、调整动态特效，且修改过程不会破坏画面原有整体逻辑与物理效果。

发布会现场演示中，工作人员仅凭手绘简易图形+文字指令，便生成了带有物理碰撞效果的完整特效视频，直观展现了模型的强大创作能力。

转载请注明出处。

• 新款 Apple Pencil要来了？或搭载可更换电池	• 东方甄选前CEO孙东旭与前主播成立新公司
• 慕帆动力完成超5亿元融资，启明创投、红杉中国	• 优酷智酷AIOS系统携手卡萨帝电视定义大屏生态新
• 上半年预亏超15亿，赛力斯触及跌停	• 蚂蚁集团开源两款AI安全模型覆盖智能体与多模
• 黄仁勋：别把AI当“人”看	• 中科曙光启动80亿元可转债发行 7月15日申购
• 海南：平稳推进2030年禁售燃油车	• 拼多多买入上海陆家嘴整栋办公楼，传花费约33亿