OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  DeepSeek

多模态补齐最后一环:DeepSeek 灰度上线“识图模式”,从文本模型迈向视觉理解

 
  birth ·  2026-04-30 11:22:42 · 8 次点击  · 0 条评论  

当大模型竞争从“谁更会写”转向“谁更会看”,多模态能力正在成为下一阶段的关键分水岭。4 月 29 日,多位用户发现,DeepSeek 已在产品端开启图片理解能力的灰度测试,这意味着其模型体系正在从纯文本推理,向视觉-语言融合能力扩展。

导语:从语言模型到视觉理解,产品形态悄然变化

在本轮灰度测试中,部分用户在 DeepSeek 首页看到新增的“识图模式”入口,悬停提示显示“图片理解功能内测中”。与此同时,研究员 陈德里 在社交平台上以一句“Now, we see you”回应,被外界解读为对多模态能力上线的间接确认。

尽管官方尚未披露具体模型细节,但从产品信号来看,这一功能很可能基于视觉语言模型(VLM, Vision-Language Model)或多模态大模型架构。

技术拆解:DeepSeek 在补哪一块能力拼图?

对于一个以文本推理见长的模型体系而言,引入“识图模式”并非简单功能扩展,而是一次底层能力跃迁。

1. 从 LLM 到 VLM:编码空间的统一

传统大语言模型(LLM)处理的是离散 token,而图像理解则依赖连续视觉特征。多模态模型的关键在于:

  • 将图像编码为 embedding(通常通过 Vision Encoder,如 ViT)

  • 与文本 token 映射到统一语义空间

  • 通过 cross-attention 实现模态间对齐

这意味着 DeepSeek 需要在原有 Transformer 架构上引入视觉编码路径,并重新训练跨模态对齐能力。

2. 推理范式变化:从生成到“理解 + 推理”

识图能力不仅是“描述图片”,更重要的是:

  • 图文推理(例如读图解题)

  • 结构化信息抽取(表格、界面、文档)

  • 场景理解(多对象关系建模)

这会改变模型的推理路径:从单一语言链式推理(Chain-of-Thought),扩展为跨模态推理(Multimodal Reasoning)。

3. 数据与训练成本的指数级上升

多模态模型的训练复杂度显著高于纯文本模型:

  • 数据:需要高质量图文对齐数据(如 caption、标注数据)

  • 算力:视觉编码 + 大模型联合训练成本更高

  • 对齐:需要额外的 alignment 阶段(例如 RLHF 的多模态版本)

这也解释了为何多模态能力通常以“灰度测试”方式逐步开放。

产品视角:识图模式意味着什么?

1. 用户交互入口发生变化

从产品设计看,“识图模式”并不是简单附加功能,而是新的交互入口:

  • 输入从文本扩展到“图像 + 文本”

  • Prompt 设计从语言转向多模态提示(Multimodal Prompting)

这将直接影响用户使用习惯。

2. Agent 能力的关键补足

在 AI Agent 场景中,视觉能力是实现自动化的重要前提,例如:

  • 识别 UI 界面(自动操作软件)

  • 理解截图(调试、报错分析)

  • 处理文档(扫描件、表格、发票)

没有视觉输入,Agent 只能停留在“文本世界”;引入识图能力后,才能进入真实环境。

3. 与竞品能力的对齐

当前主流模型厂商已全面推进多模态能力:

  • OpenAI 的 GPT-4 系列支持图像输入

  • Google 的 Gemini 强调原生多模态

  • 多个开源模型(如 LLaVA 系列)也在快速迭代

DeepSeek 此次动作,意味着其正在补齐产品能力矩阵中的关键短板。

工程挑战:从“能用”到“好用”的距离

尽管识图能力已经出现,但真正落地仍面临多个挑战:

延迟与成本

图像处理带来的:

  • 更高推理延迟

  • 更大显存占用

  • 更复杂的推理 pipeline

这对在线服务稳定性提出更高要求。

精度与鲁棒性

现实场景中的图像往往包含:

  • 模糊、遮挡

  • 多语言混合

  • 非标准格式

模型需要具备更强的泛化能力。

安全与内容审核

图像输入引入新的风险维度:

  • 敏感内容识别

  • 隐私信息处理

  • 视觉攻击(如对抗样本)

这要求平台在安全策略上同步升级。

行业意义:多模态成为“标配能力”

DeepSeek 的这一更新释放出一个明确信号:

在 2026 年,多模态能力不再是差异化优势,而是基础能力。

未来的大模型竞争,将更多集中在:

  • 跨模态推理能力

  • 实时性与成本控制

  • Agent 化集成能力

而不仅仅是文本生成质量。

写在最后:AI 正在真正“看见世界”

从“能写”到“能看”,再到“能行动”,大模型的能力边界正在不断扩展。

DeepSeek 的识图模式虽然仍处于灰度阶段,但其背后代表的是一个更大的趋势——AI 正在从符号世界走向感知世界。

当模型开始“看见”,也意味着下一阶段的竞争,将不再局限于语言,而是整个现实世界的数据入口。

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor