Siri 进入相机：Apple 将视觉 AI 与多模型调用嵌入拍摄链路，Agent 化交互迈入系统级入口

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

当大模型逐步从“应用层能力”下沉为操作系统基础设施时，入口之争正在发生变化。最新消息显示，Apple 计划在 iOS 27 中将 Siri 深度整合进相机应用，通过一个全新的 AI 模式，将视觉理解、语音交互与多模型调用直接嵌入拍摄流程。

这一变化看似只是 UI 调整，但本质上是一次“交互范式迁移”：从拍照工具升级为具备实时理解与问答能力的智能感知入口。

从“拍摄工具”到“感知入口”：相机的角色重构

在传统移动操作系统中，相机的职责是采集图像，而图像理解通常发生在后处理阶段，例如图库分析或第三方应用识别。但此次调整将视觉 AI 前移至拍摄环节：

新的 Siri 模式将作为独立选项，与“照片”“视频”“人像”等模式并列出现。这意味着视觉 AI 不再是隐藏功能，而是系统级主入口之一。

从 AI 工程角度看，这相当于将视觉编码器、语言模型与推理系统整合进一个实时 pipeline，使“看见即理解”成为默认体验。

值得注意的是，该模式并不依赖单一模型，而是具备多服务调用能力。用户在拍摄时，可以直接触发不同 AI 服务：

这意味着 Siri 的角色正在发生转变——从语音助手升级为“模型调度层（orchestrator）”，负责在不同 AI 服务之间进行路由与结果整合。

这一架构与当前 AI Agent 系统高度一致：用户提出意图，由系统自动选择工具并返回结果。

要在相机应用中实现流畅的 AI 交互，需要解决一系列工程问题：

此外，移动端算力与能耗限制，使得模型压缩（quantization）、蒸馏（distillation）等技术成为关键。

可以预见，Apple 将在本地模型与云端模型之间构建分层架构：简单识别在端侧完成，复杂问答通过网络调用外部模型。

将 AI 嵌入相机的更深层意义，在于它为“视觉 Agent”提供了天然入口。

在当前形态下，用户可以：

但在未来，这一能力可能进一步扩展为：

也就是说，相机不再只是输入设备，而是 Agent 感知世界的“传感器”。

Apple 的这一调整，可能对现有 AI 应用生态产生直接冲击。

过去，视觉 AI 主要依赖独立 App（如识图工具、购物比价应用等），但当系统级相机直接集成这些能力后：

这与浏览器集成搜索引擎、操作系统内置应用商店的逻辑类似——入口决定生态。

相比之下，Android 阵营（以 Google 为代表）更倾向于通过独立应用或系统服务提供 AI 能力，例如 Google Lens。但 Apple 的路径更激进——直接将 AI 嵌入核心应用。

两种路径的差异在于：

从开发者角度看，这将影响 AI 能力的接入方式与分发渠道。

Siri 进入相机，并不仅是一次功能升级，而是 AI 交互入口的一次迁移：从文本输入（键盘）转向视觉输入（摄像头）。

当用户可以“看见即提问”，AI 将更自然地融入现实世界场景。这种变化对大模型提出了更高要求——不仅要理解语言，还要理解环境。

在这一趋势下，未来的 AI 系统将不再局限于对话框，而是嵌入到每一个感知世界的界面中。而相机，正成为这一变革的起点。

2 次点击 ∙ 0 人收藏

登录后收藏

0 条回复