TRIBE v2 开源：Meta 用多模态大模型逼近“数字大脑”，重塑神经预测范式

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

一次关键跨界：AI 开始“生成”脑活动

3 月 27 日，Meta 旗下 AI 研究机构 FAIR 发布并开源了新一代模型 TRIBE v2。与传统神经科学依赖设备采集数据不同，这一模型的目标是：在没有真实扫描的前提下，直接预测人类大脑在面对外界刺激时的反应。

长期以来，脑科学研究高度依赖功能性磁共振成像等成像技术，这类方法虽然可靠，但成本高昂、时间分辨率有限。TRIBE v2 的出现，代表了一种新路径——通过大模型学习跨模态刺激与脑信号之间的映射关系，从“观测大脑”转向“计算大脑”。

TRIBE v2 的技术核心在于“多模态融合”。模型并非单体结构，而是整合多个成熟 AI 系统的特征表达能力：

这些模型分别对不同模态输入进行编码，并在统一的表示空间中完成对齐与融合。最终，系统将融合后的高维特征映射为一个包含约 7 万个体素（voxel） 的三维脑活动分布。

这种“从语义到神经”的映射，本质上是一种复杂的函数逼近问题：模型学习外界刺激与大脑区域激活之间的统计关系，并在新输入下进行泛化预测。

从实验结果来看，TRIBE v2 在多个关键指标上实现了显著突破。

首先是预测精度。相比传统线性模型（如 ridge regression 等常用于神经编码的基线方法），TRIBE v2 在多个任务上均取得更高相关性和更低误差。

其次是空间表现。研究显示，该模型生成的脑活动图在视觉上比部分真实 fMRI 数据更加清晰，呈现出类似“超分辨率”的效果。这并不意味着其超越物理测量本身，而是说明模型在空间结构重建上具备更强的先验约束能力。

更值得关注的是多模态输入带来的增益。当图像、声音与文本同时输入时，大脑关键整合区域——如颞叶、顶叶与枕叶交界区域——的预测准确率可提升约 50%。这一结果与认知科学结论一致，即人脑在多感官融合时会形成更稳定的表征。

TRIBE v2 的价值不仅体现在性能指标上，更在于其方法论突破。

传统神经科学强调“实验驱动”：通过控制变量、采集数据、建立模型。而 TRIBE v2 所代表的路径，则更接近“模型驱动”：先构建一个具备泛化能力的系统，再用实验验证其预测能力。

这种转变带来两个直接影响：

一是研究效率提升。大量原本需要昂贵设备和受试者参与的实验，可以先在模型中进行预演，从而筛选最有价值的研究路径。

二是理论建模能力增强。多模态大模型天然具备跨领域知识整合能力，有助于统一解释不同感官通道的神经响应。

尽管 TRIBE v2 展现出强大潜力，但其能力边界同样清晰。

在时间维度上，模型主要对齐的是 fMRI 级别的慢速信号，无法捕捉毫秒级的神经放电过程。这意味着其难以用于研究快速认知活动，例如语言生成或瞬时决策。

在感官维度上，当前系统仅覆盖视觉、听觉与文本语义，尚未纳入触觉、嗅觉等信息。而这些感知在情绪、记忆及行为决策中具有重要作用。

此外，预测结果本质上仍是统计近似，不能等同于真实神经活动。在医学诊断等高风险场景中，其可靠性仍需大量验证。

Meta 此次选择同步开源 TRIBE v2 的代码与权重，延续了其在 AI 基础设施领域的开放路线（类似 PyTorch 与 Llama 系列的策略）。

这一决策可能对多个领域产生连锁反应：

尤其是在数据获取受限的情况下，这类模型可以作为“虚拟数据生成器”，弥补真实数据的不足。

TRIBE v2 的出现，标志着 AI 与神经科学融合进入新阶段。模型不再只是分析工具，而是逐步成为认知过程的“近似模拟器”。

从长远来看，这一方向可能催生三类重要进展：

尽管距离真正理解人脑仍有显著距离，但 TRIBE v2 已经展示出一个清晰趋势：未来的脑科学，或许不再完全依赖扫描仪，而是部分建立在大模型之上。

53 次点击 ∙ 0 人收藏

登录后收藏

0 条回复