OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  DeepSeek

DeepSeek 用“视觉基元”重写多模态推理:从 Token 堆叠到结构化思维链

 
  author ·  2026-05-04 22:47:30 · 6 次点击  · 0 条评论  

多模态大模型正在进入一个关键瓶颈期:能“看懂”图像,并不等于能“推理”图像。尤其在复杂空间关系、计数、多对象引用等任务中,模型常常出现语义漂移或对象错位,这一问题被称为 Reference Gap(引用鸿沟)。

在最新发布的技术报告《Thinking with Visual Primitives》中,DeepSeek 提出了一种新的解法:将“视觉基元”(visual primitives)作为推理的基本单元,直接嵌入模型的思维链中。这一方向,本质上是在重构多模态推理的表示方式。

Reference Gap:多模态推理的隐性瓶颈

在传统多模态架构中,图像通常被编码为高维 embedding 或离散视觉 token,然后与文本 token 拼接进入 Transformer。

问题在于:

  • 图像信息被压缩为连续表示,缺乏显式结构
  • 多对象场景中,模型难以稳定指代具体实例
  • 推理过程中,引用关系容易丢失或混淆

例如在“数出图片中红色球体的数量”这类任务中,模型不仅需要识别对象,还要在推理链中持续跟踪这些对象的身份。这正是 Reference Gap 的典型体现。

核心思路:让“点”和“框”成为推理语言

DeepSeek 的解决路径并非增加模型规模,而是改变推理的“语言”。

所谓视觉基元,主要包括:

  • 点(points):用于标记关键位置
  • 框(bounding boxes):用于定义对象区域

这些基元不再只是视觉检测的中间结果,而是被当作“token-like”元素,直接参与推理链(reasoning chain)。

换句话说,模型的思考过程不再是纯文本或隐式向量,而是:

文本 token + 视觉基元 token 的交错序列

这种设计带来两个关键变化:

  • 引用关系被显式编码(例如“框 A 内的对象”)
  • 推理过程具备可追踪的空间锚点(spatial anchors)

从工程角度看,这相当于为多模态推理引入了一层轻量级“结构化表示”。

架构实现:基于 DeepSeek-V4-Flash 的高效推理

该方法构建在 DeepSeek-V4-Flash 架构之上,其一个重要优化方向是控制推理成本。

具体包括:

KV Cache 压缩

通过对注意力缓存(KV cache)进行压缩与重用,减少长序列推理带来的显存与计算开销。这对于包含视觉基元的长推理链尤为关键。

图像 Token 极简化

相比传统视觉编码方案需要大量 image tokens,该方法通过基元抽象显著降低 token 使用量。

直观理解是:

  • 不再“逐像素”或“逐 patch”理解图像
  • 而是只保留对推理有用的结构信息

这使得模型在保持性能的同时,大幅降低推理成本。

实验表现:对齐头部模型,但强调边界

在计数与空间推理相关基准上,DeepSeek 报告显示,其方法性能可对标当前主流模型,包括:

  • GPT-5.4
  • Claude Sonnet 4.6
  • Gemini 3 Flash

不过,报告也明确指出,这些结果仅覆盖特定任务维度,并不能代表整体多模态能力的全面领先。

这一点值得注意:视觉基元方法更像是针对“结构化推理”这一子问题的优化,而非通用能力的全面跃迁。

方法意义:从“感知模型”走向“推理模型”

DeepSeek 的这项工作,背后指向一个更大的趋势:多模态模型正在从“感知驱动”转向“推理驱动”。

传统路径强调:

  • 更强的视觉编码器
  • 更大的训练数据
  • 更长的上下文窗口

而视觉基元方法则强调:

  • 更清晰的中间表示
  • 更稳定的引用机制
  • 更低成本的推理路径

这与近期“结构化思维链”(structured reasoning)的研究方向形成呼应。

对 AI 工程的启示:中间表示的重要性回归

在大模型一度强调端到端学习的背景下,这项工作重新强调了“中间表示”的价值。

对于工程实践而言,可能带来几项启示:

  • 在复杂任务中,引入结构化中间层有助于提升稳定性
  • 推理效率不仅取决于模型规模,也取决于表示方式
  • 多模态系统需要“可引用”的对象级语义,而非纯 embedding

这也为 Agent 系统设计提供了新思路——尤其是在需要处理视觉环境(如自动驾驶、机器人)的场景中。

开源计划:从方法验证到生态扩展

DeepSeek 表示,未来将逐步开源:

  • 内部评测基准(benchmark)
  • 部分冷启动数据(cold-start data)

同时,相关能力不会以独立模型形式发布,而是整合进基础模型权重中。

这意味着,视觉基元推理有望成为下一代多模态模型的“内建能力”,而非外挂模块。

结语:多模态推理的“语法升级”

如果说大语言模型的突破在于统一了“语言”,那么多模态模型的下一步,很可能在于统一“推理语法”。

DeepSeek 的尝试,本质上是在回答一个关键问题:

当模型面对复杂世界时,应该用什么“语言”来思考?

视觉基元或许不是唯一答案,但它提供了一种清晰路径——让模型不仅能看见世界,还能以结构化方式理解和操作它。

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 15 ms
Developed with Cursor