语音助手这条老赛道,正在被大模型彻底重写。
近日,Google正式发布 Gemini 3.1 Flash Live,并将其作为核心引擎,全面升级Gemini Live与 Search Live。这不仅是一次模型迭代,更像是一次产品范式切换:
从“问一句答一句”,走向“持续对话 + 实时执行”。
官方将 Gemini 3.1 Flash Live定义为:
目前质量最高、延迟最低的语音与音频模型
相比此前版本,其核心升级集中在三个方向:
这意味着,AI开始具备类似人类的“听觉选择能力”。
本质上,搜索输入不再局限于文本,而是:
语音 + 视觉 + 上下文 的融合输入流
这使模型从“聊天工具”进一步进化为:
可控的实时执行代理(Real-time Agent)
在移动端(Android / iOS)中,Gemini Live迎来了最大幅度体验升级:
AI开始“记得你在说什么”
具体表现为:
这解决了语音AI的一个长期痛点:
对话一长,就“断片”。
现在,Gemini Live更接近一个“持续思考的对话体”。
如果说Flash Live是能力升级,那么Search Live就是产品层的重构。
Google宣布将其扩展至200多个国家和地区,并支持:
这意味着搜索体验正在发生根本变化:
换句话说:
搜索从“信息索引”,变成“交互式认知过程”。
Gemini 3.1 Flash Live最重要的升级,其实不是语音本身,而是:
实时对话 + 工具调用的结合
在对话过程中,模型可以:
这正是典型的Agent能力闭环:
理解 → 调用 → 返回 → 继续对话
而且这一切发生在“语音流”中,而不是文本界面。
从产品布局来看,这次更新不仅是技术升级,更是入口争夺:
这背后是一条清晰路径:
把AI嵌入所有“输入场景”
包括:
最终目标不是一个App,而是:
一个无处不在的交互层
过去十年,语音助手的问题从未解决:
Gemini 3.1 Flash Live的意义在于,它第一次让语音AI具备:
也就是说:
语音,终于从“输入方式”升级为“交互方式”。
而当语音、视觉与Agent能力融合之后,一个更大的变化正在发生:
我们不再“使用搜索”,而是在“和信息对话”。