当大模型竞争从“谁更会写”转向“谁更会看”,多模态能力正在成为下一阶段的关键分水岭。4 月 29 日,多位用户发现,DeepSeek 已在产品端开启图片理解能力的灰度测试,这意味着其模型体系正在从纯文本推理,向视觉-语言融合能力扩展。
在本轮灰度测试中,部分用户在 DeepSeek 首页看到新增的“识图模式”入口,悬停提示显示“图片理解功能内测中”。与此同时,研究员 陈德里 在社交平台上以一句“Now, we see you”回应,被外界解读为对多模态能力上线的间接确认。
尽管官方尚未披露具体模型细节,但从产品信号来看,这一功能很可能基于视觉语言模型(VLM, Vision-Language Model)或多模态大模型架构。
对于一个以文本推理见长的模型体系而言,引入“识图模式”并非简单功能扩展,而是一次底层能力跃迁。
传统大语言模型(LLM)处理的是离散 token,而图像理解则依赖连续视觉特征。多模态模型的关键在于:
将图像编码为 embedding(通常通过 Vision Encoder,如 ViT)
与文本 token 映射到统一语义空间
通过 cross-attention 实现模态间对齐
这意味着 DeepSeek 需要在原有 Transformer 架构上引入视觉编码路径,并重新训练跨模态对齐能力。
识图能力不仅是“描述图片”,更重要的是:
图文推理(例如读图解题)
结构化信息抽取(表格、界面、文档)
场景理解(多对象关系建模)
这会改变模型的推理路径:从单一语言链式推理(Chain-of-Thought),扩展为跨模态推理(Multimodal Reasoning)。
多模态模型的训练复杂度显著高于纯文本模型:
数据:需要高质量图文对齐数据(如 caption、标注数据)
算力:视觉编码 + 大模型联合训练成本更高
对齐:需要额外的 alignment 阶段(例如 RLHF 的多模态版本)
这也解释了为何多模态能力通常以“灰度测试”方式逐步开放。
从产品设计看,“识图模式”并不是简单附加功能,而是新的交互入口:
输入从文本扩展到“图像 + 文本”
Prompt 设计从语言转向多模态提示(Multimodal Prompting)
这将直接影响用户使用习惯。
在 AI Agent 场景中,视觉能力是实现自动化的重要前提,例如:
识别 UI 界面(自动操作软件)
理解截图(调试、报错分析)
处理文档(扫描件、表格、发票)
没有视觉输入,Agent 只能停留在“文本世界”;引入识图能力后,才能进入真实环境。
当前主流模型厂商已全面推进多模态能力:
OpenAI 的 GPT-4 系列支持图像输入
Google 的 Gemini 强调原生多模态
多个开源模型(如 LLaVA 系列)也在快速迭代
DeepSeek 此次动作,意味着其正在补齐产品能力矩阵中的关键短板。
尽管识图能力已经出现,但真正落地仍面临多个挑战:
图像处理带来的:
更高推理延迟
更大显存占用
更复杂的推理 pipeline
这对在线服务稳定性提出更高要求。
现实场景中的图像往往包含:
模糊、遮挡
多语言混合
非标准格式
模型需要具备更强的泛化能力。
图像输入引入新的风险维度:
敏感内容识别
隐私信息处理
视觉攻击(如对抗样本)
这要求平台在安全策略上同步升级。
DeepSeek 的这一更新释放出一个明确信号:
在 2026 年,多模态能力不再是差异化优势,而是基础能力。
未来的大模型竞争,将更多集中在:
跨模态推理能力
实时性与成本控制
Agent 化集成能力
而不仅仅是文本生成质量。
从“能写”到“能看”,再到“能行动”,大模型的能力边界正在不断扩展。
DeepSeek 的识图模式虽然仍处于灰度阶段,但其背后代表的是一个更大的趋势——AI 正在从符号世界走向感知世界。
当模型开始“看见”,也意味着下一阶段的竞争,将不再局限于语言,而是整个现实世界的数据入口。