OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Apple

苹果推进多步骤 Agent 化:Siri 测试“单次多指令”能力,试图追赶新一代 AI 助手

 
  jolt ·  2026-04-01 15:59:45 · 13 次点击  · 0 条评论  

在生成式 AI 重塑人机交互范式的当下,传统语音助手正在经历一轮“Agent 化”升级。来自 的最新动向显示,其正在为 测试一项关键能力:在单次交互中解析并执行多个用户指令。这一变化看似简单,实则意味着从“命令式助手”向“任务型智能体”的架构跃迁。

据悉,该功能将随 iOS 27、iPadOS 27 和 macOS 27 推出,成为苹果在 AI 助手赛道的重要补课动作。

从“单轮命令”到“多步骤执行”:交互范式的根本变化

当前的 Siri 仍然遵循典型的 pipeline:语音识别(ASR)→ 意图识别(NLU)→ 单一任务执行。这种设计决定了其一次只能处理一个明确目标,例如“查天气”或“发消息”。

而新功能的核心,是允许用户输入复合指令,例如:

  • 查询天气
  • 创建日历事件
  • 同步发送消息

这些操作可以在一次 utterance 中完成,系统自动拆解并编排执行顺序。

这本质上引入了三个关键能力:

  • 多意图解析(Multi-intent parsing):从一段自然语言中识别多个目标
  • 任务分解(Task decomposition):将复杂请求拆分为可执行子任务
  • 执行编排(Orchestration):根据上下文与依赖关系排序执行

这三点正是当前大模型 Agent 系统的核心能力栈。

技术视角:Siri 正在向 LLM Agent 架构靠拢

虽然苹果尚未公开具体实现,但从行业趋势推测,该能力大概率依赖以下技术组合:

1. 基于大模型的语义解析

传统规则或小模型难以稳定处理复合语句,而基于 LLM 的解析可以:

  • 识别隐含意图(如“顺便发给同事”)
  • 处理跨任务上下文
  • 提供更强的容错能力

这意味着 Siri 的 NLU 层正在向生成式模型迁移,而非仅依赖 intent 分类器。

2. 工具调用(Tool Use)与函数调用(Function Calling)

多任务执行的本质,是调用不同系统能力(天气、日历、消息)。在现代 AI 架构中,这通常通过:

  • function calling
  • tool invocation schema

来实现,将自然语言映射为结构化调用链。

这与当前主流 AI 助手(如 ChatGPT、Claude 等)中的工具调用机制高度一致。

3. 轻量级任务规划器(Planner)

要让多个请求“正确执行”,系统需要具备基础规划能力,例如:

  • 先查天气 → 决定是否安排户外日程
  • 创建日程 → 再发送通知

这类逻辑通常由一个 Planner 模块或 prompt-based planning 实现,属于 Agent 系统的关键组件。

为什么这一步对苹果尤为关键?

在过去两年中,AI 助手的竞争焦点已经从“能不能回答问题”,转向“能不能完成任务”。

对比来看:

  • 新一代助手强调 multi-step reasoning
  • 强调工具调用与自动执行
  • 强调上下文持续与跨应用协同

而 Siri 长期被诟病的核心问题正是:

  • 交互割裂
  • 上下文短
  • 无法处理复杂请求

此次升级,本质上是在补齐三个短板:

  • 从 stateless → context-aware
  • 从 single-intent → multi-intent
  • 从 passive response → active execution

对开发者生态的潜在影响

如果这一能力开放给开发者(例如通过 App Intents 或扩展 API),将带来新的应用形态:

更自然的应用调用入口

用户无需记住具体 App,只需说:

  • “帮我订明天早上去机场的车并提醒我提前出门”

系统即可调度多个服务完成任务。

新的“Agent 插件”生态

类似于当前 AI 工具链中的插件机制,未来可能出现:

  • App 作为工具节点
  • Siri 作为调度中枢
  • LLM 作为语义层

这将推动 iOS 生态向“AI 操作系统”演进。

挑战:隐私、延迟与可靠性

苹果在 AI 路线上的最大差异,在于其对端侧计算与隐私的坚持。这也带来一系列工程挑战:

  • 端侧模型能力限制:多任务解析对模型能力要求更高
  • 执行延迟控制:多步骤流程可能带来明显延迟
  • 错误恢复机制:某一步失败如何回滚或提示用户

尤其是在跨应用操作中,错误传播会显著影响体验。

结语:Siri 的“第二次机会”

从 2011 年诞生至今,已走过近 15 年,其早期优势正在被新一代 AI 助手快速侵蚀。

这次“单次多指令”能力的引入,并非简单功能升级,而是一次架构层面的转向——从语音入口,走向真正的智能执行层。

对于 而言,这可能是其在 AI 助手竞争中的关键一役:能否把操作系统级能力,与大模型的推理与规划能力真正融合,将决定 Siri 在下一阶段的存在感。

13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor