多模态大模型正在进入一个关键瓶颈期:能“看懂”图像,并不等于能“推理”图像。尤其在复杂空间关系、计数、多对象引用等任务中,模型常常出现语义漂移或对象错位,这一问题被称为 Reference Gap(引用鸿沟)。
在最新发布的技术报告《Thinking with Visual Primitives》中,DeepSeek 提出了一种新的解法:将“视觉基元”(visual primitives)作为推理的基本单元,直接嵌入模型的思维链中。这一方向,本质上是在重构多模态推理的表示方式。
在传统多模态架构中,图像通常被编码为高维 embedding 或离散视觉 token,然后与文本 token 拼接进入 Transformer。
问题在于:
例如在“数出图片中红色球体的数量”这类任务中,模型不仅需要识别对象,还要在推理链中持续跟踪这些对象的身份。这正是 Reference Gap 的典型体现。
DeepSeek 的解决路径并非增加模型规模,而是改变推理的“语言”。
所谓视觉基元,主要包括:
这些基元不再只是视觉检测的中间结果,而是被当作“token-like”元素,直接参与推理链(reasoning chain)。
换句话说,模型的思考过程不再是纯文本或隐式向量,而是:
文本 token + 视觉基元 token 的交错序列
这种设计带来两个关键变化:
从工程角度看,这相当于为多模态推理引入了一层轻量级“结构化表示”。
该方法构建在 DeepSeek-V4-Flash 架构之上,其一个重要优化方向是控制推理成本。
具体包括:
通过对注意力缓存(KV cache)进行压缩与重用,减少长序列推理带来的显存与计算开销。这对于包含视觉基元的长推理链尤为关键。
相比传统视觉编码方案需要大量 image tokens,该方法通过基元抽象显著降低 token 使用量。
直观理解是:
这使得模型在保持性能的同时,大幅降低推理成本。
在计数与空间推理相关基准上,DeepSeek 报告显示,其方法性能可对标当前主流模型,包括:
不过,报告也明确指出,这些结果仅覆盖特定任务维度,并不能代表整体多模态能力的全面领先。
这一点值得注意:视觉基元方法更像是针对“结构化推理”这一子问题的优化,而非通用能力的全面跃迁。
DeepSeek 的这项工作,背后指向一个更大的趋势:多模态模型正在从“感知驱动”转向“推理驱动”。
传统路径强调:
而视觉基元方法则强调:
这与近期“结构化思维链”(structured reasoning)的研究方向形成呼应。
在大模型一度强调端到端学习的背景下,这项工作重新强调了“中间表示”的价值。
对于工程实践而言,可能带来几项启示:
这也为 Agent 系统设计提供了新思路——尤其是在需要处理视觉环境(如自动驾驶、机器人)的场景中。
DeepSeek 表示,未来将逐步开源:
同时,相关能力不会以独立模型形式发布,而是整合进基础模型权重中。
这意味着,视觉基元推理有望成为下一代多模态模型的“内建能力”,而非外挂模块。
如果说大语言模型的突破在于统一了“语言”,那么多模态模型的下一步,很可能在于统一“推理语法”。
DeepSeek 的尝试,本质上是在回答一个关键问题:
当模型面对复杂世界时,应该用什么“语言”来思考?
视觉基元或许不是唯一答案,但它提供了一种清晰路径——让模型不仅能看见世界,还能以结构化方式理解和操作它。