当大模型逐步从“应用层能力”下沉为操作系统基础设施时,入口之争正在发生变化。最新消息显示,Apple 计划在 iOS 27 中将 Siri 深度整合进相机应用,通过一个全新的 AI 模式,将视觉理解、语音交互与多模型调用直接嵌入拍摄流程。
这一变化看似只是 UI 调整,但本质上是一次“交互范式迁移”:从拍照工具升级为具备实时理解与问答能力的智能感知入口。
在传统移动操作系统中,相机的职责是采集图像,而图像理解通常发生在后处理阶段,例如图库分析或第三方应用识别。但此次调整将视觉 AI 前移至拍摄环节:
用户在取景时即可发起语义查询
图像理解与交互在同一界面完成
不再需要跳转应用或手动上传内容
新的 Siri 模式将作为独立选项,与“照片”“视频”“人像”等模式并列出现。这意味着视觉 AI 不再是隐藏功能,而是系统级主入口之一。
从 AI 工程角度看,这相当于将视觉编码器、语言模型与推理系统整合进一个实时 pipeline,使“看见即理解”成为默认体验。
值得注意的是,该模式并不依赖单一模型,而是具备多服务调用能力。用户在拍摄时,可以直接触发不同 AI 服务:
调用对话模型(如 OpenAI 的 ChatGPT)进行语义问答
使用 Google 的反向图像搜索获取外部信息
结合本地视觉模型进行初步识别与过滤
这意味着 Siri 的角色正在发生转变——从语音助手升级为“模型调度层(orchestrator)”,负责在不同 AI 服务之间进行路由与结果整合。
这一架构与当前 AI Agent 系统高度一致:用户提出意图,由系统自动选择工具并返回结果。
要在相机应用中实现流畅的 AI 交互,需要解决一系列工程问题:
低延迟视觉编码:在取景状态下快速提取特征
流式推理(streaming inference):边拍摄边理解
多模态对齐:将图像内容转化为语言上下文
边缘与云协同:部分任务在设备端完成,复杂推理交由云端
此外,移动端算力与能耗限制,使得模型压缩(quantization)、蒸馏(distillation)等技术成为关键。
可以预见,Apple 将在本地模型与云端模型之间构建分层架构:简单识别在端侧完成,复杂问答通过网络调用外部模型。
将 AI 嵌入相机的更深层意义,在于它为“视觉 Agent”提供了天然入口。
在当前形态下,用户可以:
识别物体并获取信息
对场景进行语义提问
查询相关知识或购买链接
但在未来,这一能力可能进一步扩展为:
自动执行任务(如添加日历、生成笔记)
结合位置与上下文进行推荐
与其他应用联动完成复杂操作
也就是说,相机不再只是输入设备,而是 Agent 感知世界的“传感器”。
Apple 的这一调整,可能对现有 AI 应用生态产生直接冲击。
过去,视觉 AI 主要依赖独立 App(如识图工具、购物比价应用等),但当系统级相机直接集成这些能力后:
第三方应用的入口被压缩
用户行为更集中于系统内
数据流与调用权掌握在平台手中
这与浏览器集成搜索引擎、操作系统内置应用商店的逻辑类似——入口决定生态。
相比之下,Android 阵营(以 Google 为代表)更倾向于通过独立应用或系统服务提供 AI 能力,例如 Google Lens。但 Apple 的路径更激进——直接将 AI 嵌入核心应用。
两种路径的差异在于:
Android:模块化、开放接口、生态分散
iOS:深度集成、统一体验、平台控制更强
从开发者角度看,这将影响 AI 能力的接入方式与分发渠道。
Siri 进入相机,并不仅是一次功能升级,而是 AI 交互入口的一次迁移:从文本输入(键盘)转向视觉输入(摄像头)。
当用户可以“看见即提问”,AI 将更自然地融入现实世界场景。这种变化对大模型提出了更高要求——不仅要理解语言,还要理解环境。
在这一趋势下,未来的 AI 系统将不再局限于对话框,而是嵌入到每一个感知世界的界面中。而相机,正成为这一变革的起点。