DeepSeek 用“视觉基元”重写多模态推理：从 Token 堆叠到结构化思维链

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

多模态大模型正在进入一个关键瓶颈期：能“看懂”图像，并不等于能“推理”图像。尤其在复杂空间关系、计数、多对象引用等任务中，模型常常出现语义漂移或对象错位，这一问题被称为 Reference Gap（引用鸿沟）。

在最新发布的技术报告《Thinking with Visual Primitives》中，DeepSeek 提出了一种新的解法：将“视觉基元”（visual primitives）作为推理的基本单元，直接嵌入模型的思维链中。这一方向，本质上是在重构多模态推理的表示方式。

Reference Gap：多模态推理的隐性瓶颈

在传统多模态架构中，图像通常被编码为高维 embedding 或离散视觉 token，然后与文本 token 拼接进入 Transformer。

问题在于：

图像信息被压缩为连续表示，缺乏显式结构
多对象场景中，模型难以稳定指代具体实例
推理过程中，引用关系容易丢失或混淆

例如在“数出图片中红色球体的数量”这类任务中，模型不仅需要识别对象，还要在推理链中持续跟踪这些对象的身份。这正是 Reference Gap 的典型体现。

核心思路：让“点”和“框”成为推理语言

DeepSeek 的解决路径并非增加模型规模，而是改变推理的“语言”。

所谓视觉基元，主要包括：

点（points）：用于标记关键位置
框（bounding boxes）：用于定义对象区域

这些基元不再只是视觉检测的中间结果，而是被当作“token-like”元素，直接参与推理链（reasoning chain）。

换句话说，模型的思考过程不再是纯文本或隐式向量，而是：

文本 token + 视觉基元 token 的交错序列

这种设计带来两个关键变化：

引用关系被显式编码（例如“框 A 内的对象”）
推理过程具备可追踪的空间锚点（spatial anchors）

从工程角度看，这相当于为多模态推理引入了一层轻量级“结构化表示”。

架构实现：基于 DeepSeek-V4-Flash 的高效推理

该方法构建在 DeepSeek-V4-Flash 架构之上，其一个重要优化方向是控制推理成本。

具体包括：

KV Cache 压缩

通过对注意力缓存（KV cache）进行压缩与重用，减少长序列推理带来的显存与计算开销。这对于包含视觉基元的长推理链尤为关键。

图像 Token 极简化

相比传统视觉编码方案需要大量 image tokens，该方法通过基元抽象显著降低 token 使用量。

直观理解是：

不再“逐像素”或“逐 patch”理解图像
而是只保留对推理有用的结构信息

这使得模型在保持性能的同时，大幅降低推理成本。

实验表现：对齐头部模型，但强调边界

在计数与空间推理相关基准上，DeepSeek 报告显示，其方法性能可对标当前主流模型，包括：

GPT-5.4
Claude Sonnet 4.6
Gemini 3 Flash

不过，报告也明确指出，这些结果仅覆盖特定任务维度，并不能代表整体多模态能力的全面领先。

这一点值得注意：视觉基元方法更像是针对“结构化推理”这一子问题的优化，而非通用能力的全面跃迁。

方法意义：从“感知模型”走向“推理模型”

DeepSeek 的这项工作，背后指向一个更大的趋势：多模态模型正在从“感知驱动”转向“推理驱动”。

传统路径强调：

更强的视觉编码器
更大的训练数据
更长的上下文窗口

而视觉基元方法则强调：

更清晰的中间表示
更稳定的引用机制
更低成本的推理路径

这与近期“结构化思维链”（structured reasoning）的研究方向形成呼应。

对 AI 工程的启示：中间表示的重要性回归

在大模型一度强调端到端学习的背景下，这项工作重新强调了“中间表示”的价值。

对于工程实践而言，可能带来几项启示：

在复杂任务中，引入结构化中间层有助于提升稳定性
推理效率不仅取决于模型规模，也取决于表示方式
多模态系统需要“可引用”的对象级语义，而非纯 embedding

这也为 Agent 系统设计提供了新思路——尤其是在需要处理视觉环境（如自动驾驶、机器人）的场景中。

开源计划：从方法验证到生态扩展

DeepSeek 表示，未来将逐步开源：

内部评测基准（benchmark）
部分冷启动数据（cold-start data）

同时，相关能力不会以独立模型形式发布，而是整合进基础模型权重中。

这意味着，视觉基元推理有望成为下一代多模态模型的“内建能力”，而非外挂模块。

结语：多模态推理的“语法升级”

如果说大语言模型的突破在于统一了“语言”，那么多模态模型的下一步，很可能在于统一“推理语法”。

DeepSeek 的尝试，本质上是在回答一个关键问题：

当模型面对复杂世界时，应该用什么“语言”来思考？

视觉基元或许不是唯一答案，但它提供了一种清晰路径——让模型不仅能看见世界，还能以结构化方式理解和操作它。

6 次点击 ∙ 0 人收藏

登录后收藏

0 条回复