谷歌 AI 全方位发力,打造“世界模型”
谷歌 AI 齐发:从电影制作到代码生成,打造“世界模型”
谷歌近期一口气发布了一系列 AI 功能更新,涵盖文本、图像、视频、音乐等多个领域,试图将 Gemini 打造成一个能计划、理解并模拟现实世界的“世界模型”。
AI 电影制作工具 Flow 推出
面向创作者的 AI 电影制作工具 Flow 正式上线。用户只需用自然语言描述电影场景,即可自动生成叙事片段,管理演员、地点、道具和风格。Flow 目前在美国向 Gemini Pro 和 Ultra 用户开放,全球推广也在进行中。
Imagen 4 精度提升,支持多场景创作
新版图像生成工具 Imagen 4 精度与速度均大幅提升,可逼真展现织物、水滴和动物毛发等细节,同时也能生成偏抽象类型的风格。它支持 2K 分辨率和多种长宽比生成,在排版和拼写方面也有显著优化,适合制作贺卡、海报甚至漫画。Imagen 4 已在 Gemini、Whisk、Vertex AI 以及 Workspace 的 Slides、Vids 和 Docs 中上线,未来还将推出速度快十倍的版本。
Lyria 推出互动式音乐生成模型
谷歌扩大了 Lyria 2 驱动的 Music AI Sandbox 访问权限,并上线了互动式音乐生成模型 Lyria RealTime。该模型已通过 API 和 AI Studio 向开发者开放。
SynthID 防伪技术升级
考虑到由 Veo 3、Imagen 4 和 Lyria 2 生成的内容将继续带有 SynthID 水印,谷歌发布了全新的 SynthID Detector。用户只需上传文件,即可识别其中是否包含 SynthID 水印,用于防伪和追踪 AI 内容来源。
Gemini “世界模型” 迈进新阶段
Google 希望将 Gemini 打造成一个“世界模型”,既能计划、理解,也能模拟现实世界的各个方面。Gemini Live 已逐步集成视频理解、屏幕共享、记忆功能等,新的语音输出加入原生音频,更加自然;记忆与 computer use 能力也同步增强。此外,谷歌还在探索如何利用 Agent 能力帮助人们处理多任务。Project Mariner 就是其中之一,能够同时完成最多十项任务,比如信息查询、预订、购物与调研。已面向美国 Ultra 用户开放,并即将集成至 Gemini API 与其他核心产品中。
AI 工具 NotebookLM 和 Jules 推出新功能
AI 笔记工具 NotebookLM 官方昨日宣布上线 24 小时内成为 App Store 中排名第 2 的生产力应用和第 9 的整体应用。它提供音频概览和思维导图等功能,其中音频概览目前已支持超过 80 种语言,本周将引入更高的可定制性。同时,谷歌也在 NotebookLM 中加入视频概览功能,用户可以一键将笔记内容转化为教育类视频。
AI 编程助手 Jules 正式进入公开 Beta 测试阶段,能够理解代码并自主完成诸如编写测试、构建功能和修复 Bug 等开发任务。
Google AI Ultra 订阅服务正式推出
谷歌推出了全新的订阅服务 Google AI Ultra,为专业用户提供 Google 最强大模型和高级功能的无限制访问,适合电影制作人、开发者、创意工作者等专业人士,月费为 249.99 美元。目前该计划已在美国上线,并将很快扩展至其他国家。
面对激烈的 AI 市场竞争,谷歌正致力于打造能真正打入用户心智的“杀手级产品”。此次发布会上,从文本、图像、视频、音乐到搜索、Agent 和创作工具,谷歌几乎什么都做了,只差一记真正击中用户痛点的落子。## 阅读本文之前,你最好先了解...
谷歌在 AI 领域的发展历程及其竞争对手的现状:
-
早期发展: 从 DeepMind 的 AlphaGo 到 BERT 和 LaMDA,谷歌逐步建立起强大的 AI 基础设施和技术优势。
-
市场竞争: OpenAI 的 ChatGPT、Meta 的 LLaMA 等竞争对手也快速崛起,在文本生成领域取得突破性进展。
-
伦理与安全挑战: AI 发展面临着滥用风险、数据隐私等挑战,谷歌积极参与行业规范制定和责任使用倡导。
Google AI 的未来展望
此次发布的 Gemini 和一系列工具预示着谷歌更加注重将 AI 技术应用于现实世界中:
- “世界模型”的目标: Gemini 作为核心,连接不同模态,打造能理解、模拟现实世界的 AI 系统,并逐步融入到 Google 产品和服务中。
- 开源和合作: 除了自家产品,谷歌也在积极推动开源项目,鼓励开发者参与 AI 生态建设,促进技术进步和共享。
最终目标: 帮助用户更高效地完成任务、创造更多价值,让 AI 技术真正为人类社会带来积极影响。
如果你有其它意见,请评论留言。