在生成式 AI 重塑人机交互范式的当下,传统语音助手正在经历一轮“Agent 化”升级。来自 的最新动向显示,其正在为 测试一项关键能力:在单次交互中解析并执行多个用户指令。这一变化看似简单,实则意味着从“命令式助手”向“任务型智能体”的架构跃迁。
据悉,该功能将随 iOS 27、iPadOS 27 和 macOS 27 推出,成为苹果在 AI 助手赛道的重要补课动作。
当前的 Siri 仍然遵循典型的 pipeline:语音识别(ASR)→ 意图识别(NLU)→ 单一任务执行。这种设计决定了其一次只能处理一个明确目标,例如“查天气”或“发消息”。
而新功能的核心,是允许用户输入复合指令,例如:
这些操作可以在一次 utterance 中完成,系统自动拆解并编排执行顺序。
这本质上引入了三个关键能力:
这三点正是当前大模型 Agent 系统的核心能力栈。
虽然苹果尚未公开具体实现,但从行业趋势推测,该能力大概率依赖以下技术组合:
传统规则或小模型难以稳定处理复合语句,而基于 LLM 的解析可以:
这意味着 Siri 的 NLU 层正在向生成式模型迁移,而非仅依赖 intent 分类器。
多任务执行的本质,是调用不同系统能力(天气、日历、消息)。在现代 AI 架构中,这通常通过:
function calling tool invocation schema 来实现,将自然语言映射为结构化调用链。
这与当前主流 AI 助手(如 ChatGPT、Claude 等)中的工具调用机制高度一致。
要让多个请求“正确执行”,系统需要具备基础规划能力,例如:
这类逻辑通常由一个 Planner 模块或 prompt-based planning 实现,属于 Agent 系统的关键组件。
在过去两年中,AI 助手的竞争焦点已经从“能不能回答问题”,转向“能不能完成任务”。
对比来看:
而 Siri 长期被诟病的核心问题正是:
此次升级,本质上是在补齐三个短板:
如果这一能力开放给开发者(例如通过 App Intents 或扩展 API),将带来新的应用形态:
用户无需记住具体 App,只需说:
系统即可调度多个服务完成任务。
类似于当前 AI 工具链中的插件机制,未来可能出现:
这将推动 iOS 生态向“AI 操作系统”演进。
苹果在 AI 路线上的最大差异,在于其对端侧计算与隐私的坚持。这也带来一系列工程挑战:
尤其是在跨应用操作中,错误传播会显著影响体验。
从 2011 年诞生至今,已走过近 15 年,其早期优势正在被新一代 AI 助手快速侵蚀。
这次“单次多指令”能力的引入,并非简单功能升级,而是一次架构层面的转向——从语音入口,走向真正的智能执行层。
对于 而言,这可能是其在 AI 助手竞争中的关键一役:能否把操作系统级能力,与大模型的推理与规划能力真正融合,将决定 Siri 在下一阶段的存在感。