BMJ Open 研究拆解五大模型医疗表现：LLM 并非“医生”，Agent 化医疗系统仍缺关键一环

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

当大模型逐步进入医疗咨询、健康管理甚至临床辅助决策场景，一个核心问题开始变得无法回避：当前 LLM 的“可靠性边界”到底在哪里？

最新发表于《BMJ Open》的一项研究，对包括、、、和在内的五大主流 AI 平台进行了系统性评估。结果显示：约 50% 的医学建议存在不同程度问题，其中接近 20% 被判定为“高度有问题”。

这一结果不仅是对“AI 是否能替代医生”的直接回应，也为 AI 技术社区提供了一个更现实的观察视角：模型能力已进入应用区间，但系统级可靠性仍远未达标。

研究设计：从“问答能力”到“医疗有效性”的落差

该研究采用相对标准化的评测方法：

覆盖五类健康问题（如疫苗、癌症、营养学等）
每类提出 10 个问题，包含封闭式与开放式两种类型
对回答进行医学准确性与风险等级评估

结果呈现出明显分层：

在封闭式问题（如标准诊疗建议）上表现较好
在复杂开放问题（如个性化营养、前沿疗法）上显著下降
在高不确定领域（如干细胞、替代疗法）中错误率更高

更值得关注的是：所有模型均未能提供完整、可验证的参考文献链路，这在医学场景中几乎是“致命缺陷”。

技术根因：为什么 LLM 在医疗场景“看起来对，但其实错”？

从 AI 工程视角看，这一现象并不意外，背后至少有三类结构性原因。

1. 训练目标与医疗需求的不一致

主流 LLM 的训练目标是“语言建模”（predict next token），而非“事实验证”或“医学推理”。这导致：

模型更倾向于生成流畅且自洽的答案
而非严格遵循循证医学（evidence-based medicine）

在医疗场景中，这种偏差会被放大——“听起来合理”并不等于“临床正确”。

2. 缺乏可靠的知识溯源（Attribution）

当前大多数模型在生成回答时：

并未绑定具体文献或指南（如临床 trial、meta-analysis）
引用往往是“生成式构造”，而非真实检索结果

这意味着回答无法通过 citation trace 进行验证，也无法纳入标准医疗审查流程。

3. 推理链条不可控（Uncontrolled Reasoning）

虽然 LLM 已具备一定链式推理能力（chain-of-thought），但在医疗问题中：

推理路径不可解释
中间假设不可审计
错误难以定位

这与传统医疗决策系统（如规则引擎或知识图谱）形成鲜明对比。

一个关键分水岭：Chatbot ≠ Medical Agent

该研究实际上揭示了一个被行业反复忽略的问题：聊天机器人不等于医疗系统。

真正可用的 AI 医疗系统，需要从单一模型演进为多模块 Agent 架构，至少包括：

检索增强（RAG）层：对接权威医学数据库（如指南、期刊）
知识校验层：对生成内容进行事实一致性检查
风险控制层：识别高风险建议并触发限制或人工介入
可解释性输出层：提供明确的引用与证据链

当前主流模型，即便是或，在默认形态下仍停留在“生成层”，缺乏完整系统支撑。

行业现实：AI 正在进入医疗，但方式正在改变

尽管研究结果偏谨慎，AI 在医疗领域的渗透并未放缓，而是呈现出更清晰的路径分化：

1. 从“直接建议”转向“辅助决策”

不再直接回答“我该怎么治疗”
转而支持医生进行信息整理、病例总结、文献检索

2. 从“通用模型”转向“垂直模型 + 数据闭环”

结合医院私有数据进行微调（fine-tuning）
构建领域专用模型（medical LLM）

3. 从“开放交互”转向“受控环境部署”

限制使用场景（如仅医生端）
引入审计日志与合规机制

这意味着，AI 医疗的落地路径正在从“to C 替代医生”转向“to B 增强医疗系统”。

对 AI 工程的启示：高风险领域需要“系统正确性”，而非“模型聪明”

对于 AI 技术社区而言，这项研究的价值不在于否定大模型，而在于明确一个工程事实：

在医疗、法律、金融等高风险领域，系统正确性（system correctness）优先于模型能力（model capability）。

这将直接影响未来 AI 系统设计：

单模型方案将让位于多组件架构
“生成能力”需要被“验证机制”包裹
Agent 设计需内建安全与审计能力

结语：AI 可以参与医疗，但不能“单独行医”

从当前阶段看，大模型已经具备参与医疗信息处理的能力，但尚未具备独立提供可靠医疗建议的条件。

《BMJ Open》的这项研究，本质上是在提醒整个行业：AI 的问题不在于不够聪明，而在于缺乏约束。

当 AI 从“对话工具”走向“决策系统”，真正的挑战不再是提升模型参数规模，而是构建一个可验证、可追溯、可监管的智能系统。这，才是医疗 AI 走向真实世界的关键门槛。

21 次点击 ∙ 0 人收藏

登录后收藏

0 条回复