3 月 27 日,Meta 旗下 AI 研究机构 FAIR 发布并开源了新一代模型 TRIBE v2。与传统神经科学依赖设备采集数据不同,这一模型的目标是:在没有真实扫描的前提下,直接预测人类大脑在面对外界刺激时的反应。
长期以来,脑科学研究高度依赖 功能性磁共振成像 等成像技术,这类方法虽然可靠,但成本高昂、时间分辨率有限。TRIBE v2 的出现,代表了一种新路径——通过大模型学习跨模态刺激与脑信号之间的映射关系,从“观测大脑”转向“计算大脑”。
TRIBE v2 的技术核心在于“多模态融合”。模型并非单体结构,而是整合多个成熟 AI 系统的特征表达能力:
这些模型分别对不同模态输入进行编码,并在统一的表示空间中完成对齐与融合。最终,系统将融合后的高维特征映射为一个包含约 7 万个体素(voxel) 的三维脑活动分布。
这种“从语义到神经”的映射,本质上是一种复杂的函数逼近问题:模型学习外界刺激与大脑区域激活之间的统计关系,并在新输入下进行泛化预测。
从实验结果来看,TRIBE v2 在多个关键指标上实现了显著突破。
首先是预测精度。相比传统线性模型(如 ridge regression 等常用于神经编码的基线方法),TRIBE v2 在多个任务上均取得更高相关性和更低误差。
其次是空间表现。研究显示,该模型生成的脑活动图在视觉上比部分真实 fMRI 数据更加清晰,呈现出类似“超分辨率”的效果。这并不意味着其超越物理测量本身,而是说明模型在空间结构重建上具备更强的先验约束能力。
更值得关注的是多模态输入带来的增益。当图像、声音与文本同时输入时,大脑关键整合区域——如颞叶、顶叶与枕叶交界区域——的预测准确率可提升约 50%。这一结果与认知科学结论一致,即人脑在多感官融合时会形成更稳定的表征。
TRIBE v2 的价值不仅体现在性能指标上,更在于其方法论突破。
传统神经科学强调“实验驱动”:通过控制变量、采集数据、建立模型。而 TRIBE v2 所代表的路径,则更接近“模型驱动”:先构建一个具备泛化能力的系统,再用实验验证其预测能力。
这种转变带来两个直接影响:
一是研究效率提升。大量原本需要昂贵设备和受试者参与的实验,可以先在模型中进行预演,从而筛选最有价值的研究路径。
二是理论建模能力增强。多模态大模型天然具备跨领域知识整合能力,有助于统一解释不同感官通道的神经响应。
尽管 TRIBE v2 展现出强大潜力,但其能力边界同样清晰。
在时间维度上,模型主要对齐的是 fMRI 级别的慢速信号,无法捕捉毫秒级的神经放电过程。这意味着其难以用于研究快速认知活动,例如语言生成或瞬时决策。
在感官维度上,当前系统仅覆盖视觉、听觉与文本语义,尚未纳入触觉、嗅觉等信息。而这些感知在情绪、记忆及行为决策中具有重要作用。
此外,预测结果本质上仍是统计近似,不能等同于真实神经活动。在医学诊断等高风险场景中,其可靠性仍需大量验证。
Meta 此次选择同步开源 TRIBE v2 的代码与权重,延续了其在 AI 基础设施领域的开放路线(类似 PyTorch 与 Llama 系列的策略)。
这一决策可能对多个领域产生连锁反应:
尤其是在数据获取受限的情况下,这类模型可以作为“虚拟数据生成器”,弥补真实数据的不足。
TRIBE v2 的出现,标志着 AI 与神经科学融合进入新阶段。模型不再只是分析工具,而是逐步成为认知过程的“近似模拟器”。
从长远来看,这一方向可能催生三类重要进展:
尽管距离真正理解人脑仍有显著距离,但 TRIBE v2 已经展示出一个清晰趋势:未来的脑科学,或许不再完全依赖扫描仪,而是部分建立在大模型之上。