当大模型开始调用你的照片与视频,它的能力边界就不再局限于“通用知识”,而是向“个体化智能”跃迁。近期,为其 Gemini 订阅用户推出升级版 Personal Intelligence 体验,通过新模型 Nano Banana 2,将大模型与用户的 深度打通,允许直接基于个人媒体资产生成 AI 图像。
这不仅是一次功能更新,更是 Google 在“个人数据 × 多模态模型 × Agent 系统”方向上的关键布局。
当前主流大模型(包括 GPT、Gemini 等)已经具备强大的文本与多模态理解能力,但它们的“知识”大多是公共语料。而下一阶段竞争的焦点,是:
谁能更好地理解“个体用户的上下文”。
Gemini 的此次升级,核心在于把“用户自己的照片与视频”纳入模型上下文,从而构建真正的“Personal AI”。
基于 Nano Banana 2 模型,Gemini 新增了以下能力:
例如,用户可以:
这类能力,本质上属于个性化条件生成(personalized conditional generation)。
要实现这一能力,底层涉及多个关键技术模块:
模型需要将图片与视频转化为统一的语义表示(embedding),包括:
与传统训练不同,这里并不是将用户数据用于模型训练,而是:
这类似于 RAG(Retrieval-Augmented Generation),但检索源从“知识库”变成了“个人媒体库”。
Gemini 提供 “Sources” 按钮,让用户查看哪些照片被用作参考,这在当前生成模型中并不常见,其意义在于:
在用户最关心的数据安全问题上,明确表示:
这反映出一种折中路径:
从架构上看,这更接近“on-demand personalization”,而非“data-driven retraining”。
这一更新的意义,不止于图像生成,而在于它补齐了个人 Agent 的关键能力:
当这些能力与 Gemini 现有的对话、工具调用结合,就形成一个雏形:
一个能够理解你、记住你,并基于你数据行动的 AI Agent。
目前该功能主要面向订阅用户,且 Chrome 版本支持即将推出。这意味着:
这与 Google 一贯的生态策略一致:通过账号体系,将各类服务数据整合为 AI 的“统一输入层”。
与其他厂商相比,这一方向具有明显差异:
未来竞争的关键,可能不再只是模型参数规模,而是:
谁掌握了更多“高质量、长期、个体化的数据上下文”。
尽管前景广阔,但这一方向也存在现实挑战:
这些问题,将直接影响 Personal AI 的普及速度。
Gemini 的这次升级释放了一个清晰信号:
AI 正在从“回答问题的工具”,演变为“理解个人的系统”。
当模型开始使用你的照片、视频与历史数据,它就不再是一个通用助手,而是一个逐渐“个性化”的数字代理。未来的 AI 竞争,将不仅取决于模型有多强,更取决于它对你有多了解,以及能为你做多少事情。