当大模型逐渐从“问答工具”演化为“任务执行系统”,AI 应用的界面设计也在发生结构性变化。Google 近期对 Gemini 应用进行的全方位改版,正是这一趋势的一个缩影——界面不再围绕对话本身,而是围绕多模态输入、工具调用与复杂任务编排展开。
这次更新看似是 UI 调整,实则是一次围绕 AI Agent 交互模型的重构。
新版 Gemini 首页最显著的变化,是将传统输入框替换为“药丸形”交互组件,并通过“+”入口扩展多种输入能力:
照片上传
文件导入
Notebook(结构化内容)
视频与 Canvas 工具
这一设计背后,体现的是输入语义的变化:
用户不再只是“提问”,而是在提交任务上下文(Context Submission)。
从 AI 工程角度看,这意味着:
Prompt 不再局限于文本
上下文构建转向多模态融合
输入层成为 Agent 调度的第一步
这与当前多模态大模型(Multimodal LLM)的发展方向高度一致。
Gemini 将视频、Canvas、深度研究等功能直接嵌入主界面,而不是隐藏在二级菜单中。这一调整反映出一个关键变化:
过去:模型是核心,工具是附属
现在:模型 + 工具共同构成执行系统
在 Agent 架构中,这对应“Tool Augmentation”层:
模型负责推理与决策
工具负责执行具体操作
通过前置工具入口,Gemini 实际上在引导用户:
明确任务类型
选择执行路径
构建更结构化的请求
这有助于减少“模糊 prompt”带来的不确定性。
一个容易被忽略的细节是:“查看思考步骤”被移入溢出菜单,并通过底部面板呈现。
这意味着:
Chain-of-Thought 不再是默认展示内容
推理过程从“主视图”退居“调试视图”
这种变化背后的逻辑是:
普通用户更关心结果,而非推理路径。
从产品角度看,这是一种“去技术化”的设计;但从工程角度看,它也暗示:
推理过程仍然存在,但被抽象为系统内部机制
UI 更关注任务状态与结果呈现
这与 Agent 系统中的“执行黑箱化”趋势一致。
新版界面引入渐变脉动背景,以及在 iOS 端应用的 Liquid Glass 风格,这些变化不仅是审美升级,更与 AI 产品的感知模型相关:
动态背景强化“系统在运行”的感知
半透明与层叠效果增强信息层级
视觉反馈替代部分文本提示
对于 AI 应用而言,UI 不再只是展示信息,而是:
传递系统状态
提供交互反馈
降低用户认知负担
尤其是在多步骤任务中,视觉信号成为重要补充。
此次改版中,模型切换器回归左上角,账号管理被移至导航抽屉底部,这种布局调整看似细微,但反映了信息架构的优先级变化:
模型选择成为高频操作
用户身份管理退居次要位置
这背后可能对应未来的多 Agent 或多模型协同场景:
不同模型负责不同任务类型
用户需要频繁切换执行策略
换句话说,模型正在从“隐式能力”变成“显式资源”。
综合来看,此次 Gemini 改版呈现出几个明确趋势:
文本只是其中一种
文件、图像、视频成为标准上下文
用户直接参与工具选择
提升任务执行确定性
从聊天记录转向任务结果
推理过程隐藏但可访问
UI 成为调度与反馈层
而非简单交互窗口
Gemini 的这一轮调整,对开发者与产品团队有几个值得关注的方向:
通过 UI 限制输入结构
减少对用户 prompt 能力的依赖
用户需要知道任务进展
但不一定需要理解推理细节
文件解析
图像理解
视频处理
这些能力将直接影响应用体验。
不同能力需要不同交互方式
通用聊天界面已难以承载复杂任务
Gemini 的改版释放出一个清晰信号:AI 应用的下一阶段竞争,不仅在模型能力,也在如何组织人与模型之间的交互关系。
当模型能力逐渐趋同:
谁能更好地组织任务输入
谁能更清晰地呈现执行过程
谁能更高效地整合工具链
将成为新的分水岭。
从这个角度看,AI 产品的核心,不再只是“大模型”,而是围绕它构建的一整套交互与执行系统。