多模态补齐最后一环：DeepSeek 灰度上线“识图模式”，从文本模型迈向视觉理解

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

当大模型竞争从“谁更会写”转向“谁更会看”，多模态能力正在成为下一阶段的关键分水岭。4 月 29 日，多位用户发现，DeepSeek 已在产品端开启图片理解能力的灰度测试，这意味着其模型体系正在从纯文本推理，向视觉-语言融合能力扩展。

导语：从语言模型到视觉理解，产品形态悄然变化

在本轮灰度测试中，部分用户在 DeepSeek 首页看到新增的“识图模式”入口，悬停提示显示“图片理解功能内测中”。与此同时，研究员陈德里在社交平台上以一句“Now, we see you”回应，被外界解读为对多模态能力上线的间接确认。

尽管官方尚未披露具体模型细节，但从产品信号来看，这一功能很可能基于视觉语言模型（VLM, Vision-Language Model）或多模态大模型架构。

技术拆解：DeepSeek 在补哪一块能力拼图？

对于一个以文本推理见长的模型体系而言，引入“识图模式”并非简单功能扩展，而是一次底层能力跃迁。

1. 从 LLM 到 VLM：编码空间的统一

传统大语言模型（LLM）处理的是离散 token，而图像理解则依赖连续视觉特征。多模态模型的关键在于：

将图像编码为 embedding（通常通过 Vision Encoder，如 ViT）
与文本 token 映射到统一语义空间
通过 cross-attention 实现模态间对齐

这意味着 DeepSeek 需要在原有 Transformer 架构上引入视觉编码路径，并重新训练跨模态对齐能力。

2. 推理范式变化：从生成到“理解 + 推理”

识图能力不仅是“描述图片”，更重要的是：

图文推理（例如读图解题）
结构化信息抽取（表格、界面、文档）
场景理解（多对象关系建模）

这会改变模型的推理路径：从单一语言链式推理（Chain-of-Thought），扩展为跨模态推理（Multimodal Reasoning）。

3. 数据与训练成本的指数级上升

多模态模型的训练复杂度显著高于纯文本模型：

数据：需要高质量图文对齐数据（如 caption、标注数据）
算力：视觉编码 + 大模型联合训练成本更高
对齐：需要额外的 alignment 阶段（例如 RLHF 的多模态版本）

这也解释了为何多模态能力通常以“灰度测试”方式逐步开放。

产品视角：识图模式意味着什么？

1. 用户交互入口发生变化

从产品设计看，“识图模式”并不是简单附加功能，而是新的交互入口：

输入从文本扩展到“图像 + 文本”
Prompt 设计从语言转向多模态提示（Multimodal Prompting）

这将直接影响用户使用习惯。

2. Agent 能力的关键补足

在 AI Agent 场景中，视觉能力是实现自动化的重要前提，例如：

识别 UI 界面（自动操作软件）
理解截图（调试、报错分析）
处理文档（扫描件、表格、发票）

没有视觉输入，Agent 只能停留在“文本世界”；引入识图能力后，才能进入真实环境。

3. 与竞品能力的对齐

当前主流模型厂商已全面推进多模态能力：

OpenAI 的 GPT-4 系列支持图像输入
Google 的 Gemini 强调原生多模态
多个开源模型（如 LLaVA 系列）也在快速迭代

DeepSeek 此次动作，意味着其正在补齐产品能力矩阵中的关键短板。

工程挑战：从“能用”到“好用”的距离

尽管识图能力已经出现，但真正落地仍面临多个挑战：

延迟与成本

图像处理带来的：

更高推理延迟
更大显存占用
更复杂的推理 pipeline

这对在线服务稳定性提出更高要求。

精度与鲁棒性

现实场景中的图像往往包含：

模糊、遮挡
多语言混合
非标准格式

模型需要具备更强的泛化能力。

安全与内容审核

图像输入引入新的风险维度：

敏感内容识别
隐私信息处理
视觉攻击（如对抗样本）

这要求平台在安全策略上同步升级。

行业意义：多模态成为“标配能力”

DeepSeek 的这一更新释放出一个明确信号：

在 2026 年，多模态能力不再是差异化优势，而是基础能力。

未来的大模型竞争，将更多集中在：

跨模态推理能力
实时性与成本控制
Agent 化集成能力

而不仅仅是文本生成质量。

写在最后：AI 正在真正“看见世界”

从“能写”到“能看”，再到“能行动”，大模型的能力边界正在不断扩展。

DeepSeek 的识图模式虽然仍处于灰度阶段，但其背后代表的是一个更大的趋势——AI 正在从符号世界走向感知世界。

当模型开始“看见”，也意味着下一阶段的竞争，将不再局限于语言，而是整个现实世界的数据入口。

8 次点击 ∙ 0 人收藏

登录后收藏

0 条回复