在 AI 从“对话接口”迈向“生产力操作系统”的关键阶段,Google 正试图同时解决两个长期瓶颈:上下文理解能力与算力供给结构。在 Cloud Next 2026 上,其一手推出 Workspace Intelligence,另一手发布第八代 TPU(TPU 8t / TPU 8i),构成了一条从数据语义层到基础设施层的完整技术闭环。
这不仅是产品更新,更是一次对企业级 AI Agent 架构的系统性重构。
长期以来,企业内部的 AI 应用面临同一个难题:上下文碎片化。邮件、文档、会议记录、IM 工具与第三方 SaaS 分散在不同系统中,导致模型难以获取完整语境。
Workspace Intelligence 的本质,是在这些数据源之上构建一个统一的“语义上下文层”,并与 Gemini 推理能力深度耦合。其技术路径可以拆解为三部分:
系统横向打通 Gmail、Docs、Sheets、Chat 等 Workspace 数据,并延伸至 Asana、Jira、Salesforce 等外部工具,将:
用户历史沟通(邮件、聊天)
项目文档与协作记录
组织结构与权限关系
映射为一个动态更新的语义网络。这一步的关键在于搜索与 embedding 的融合,使“检索”从关键词匹配升级为语义召回。
依托 Gemini 的推理能力,系统不仅检索信息,还会判断优先级。例如:
当前任务关联的关键文件
潜在的协作者与依赖关系
时间维度上的紧急程度
这实际上引入了一种“任务感知上下文”(task-aware context),使 Agent 可以主动参与决策,而非被动响应 prompt。
Workspace Intelligence 进一步将用户历史行为(写作风格、沟通语气、格式偏好)纳入建模,使输出结果具备“人格一致性”。这意味着:
自动生成的文档可匹配企业模板与品牌语气
邮件回复更贴近个人表达习惯
幻灯片与图表保持视觉一致性
这一步,本质上是对“用户 embedding”的持续训练与更新。
在具体产品中,这一“上下文层”被嵌入多个应用,形成典型的 Agent 工作流:
在 Google Chat 中,Gemini 可完成跨应用任务,例如生成文档、检索资料、协调会议时间(涉及多方日程约束)
在 Docs 中,模型可基于企业数据生成信息图,并自动统一视觉风格,同时对评论进行分类、回复并触发内容修改
在 Slides 中,系统可直接生成符合企业模板的完整演示文稿
在 Sheets 中,引入对话式数据处理与分析能力
这些能力的共同点是:不再依赖显式 prompt,而是基于上下文自动完成复杂任务编排。
从架构角度看,这已经接近一个“企业内部 Agent OS”。
如果说 Workspace Intelligence 解决的是“理解问题”,那么 TPU v8 则试图解决“计算问题”。
TPU 8t 的目标非常明确:压缩前沿模型的训练周期。其关键技术特征包括:
单个 superpod 扩展至 9,600 芯片,配备 2 PB 共享高带宽内存
总算力达到 121 ExaFlops,支持超大模型训练
芯片间带宽翻倍,降低分布式训练通信开销
更重要的是其软件栈:
JAX 与 Pathways 支持大规模并行编程
Virgo 网络实现高带宽、低延迟互联
支持近乎线性扩展至百万级芯片规模
这意味着,模型训练正从“受限扩展”走向“接近理想扩展”。
相比训练,推理侧更关注成本与延迟。TPU 8i 的优化方向包括:
每美元性能提升约 80%
288 GB 高带宽内存 + 384 MB 片上 SRAM,缓解内存瓶颈
ICI 带宽提升至 19.2 Tb/s,适配 MoE(Mixture of Experts)模型
其新增的 CAE(集合加速引擎)负责全局操作(如 reduce、all-reduce),将延迟降低最多 5 倍,从而减少推理过程中的“卡顿”。
同时,引入基于 Arm 的 Axion CPU,并采用 NUMA 架构进行资源隔离与优化,使整个平台更适合多租户云环境。
将 Workspace Intelligence 与 TPU v8 放在一起看,可以发现一个清晰趋势:
AI 的竞争焦点,正在从“模型参数规模”转向“系统级能力整合”。
这一系统包括两层:
上层:上下文理解与 Agent 编排(Workspace Intelligence + Gemini)
下层:训练与推理基础设施(TPU v8)
两者之间形成闭环:
更强的算力 → 支持更复杂的上下文建模与推理
更丰富的上下文 → 提升模型调用频率与推理深度 → 反向推动算力需求
这与传统 SaaS 工具形成明显区别:AI 不再只是功能增强,而是成为系统核心调度层。
这次发布对开发者与企业架构的影响,可能集中在三个方向:
未来的 AI 应用,不再是“模型 + prompt”,而是“模型 + 上下文系统”。如何构建安全、可控、实时更新的上下文层,将成为核心能力。
从 POST /v1/chat.completions 到跨应用任务执行,开发范式正在从 API 调用转向 Agent orchestration。
TPU v8 的设计明显针对 MoE、大规模推理与多租户场景,这意味着:
模型架构选择将直接影响基础设施设计
应用侧需求(如低延迟、个性化)将反向塑造硬件
Workspace Intelligence 与 TPU v8 的组合,展示了一种更激进的路径:让 AI 既理解你在做什么,也有能力实时参与其中。
但这也带来新的问题:
上下文聚合如何保证数据隔离与隐私安全?
个性化建模是否会引入“行为锁定”风险?
超大规模算力是否会进一步加剧资源集中?
当 AI 从工具升级为“工作流操作系统”,真正的竞争将不再只是模型能力,而是整个技术栈的协同效率与边界控制能力。