OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
社区运行状况
注册会员 1032
主题 361
模型 2962
技能包 6701
数据集 1026
论文 236
开源项目 319

语言模型智能评测方法论

Artificial Analysis智能指数v4.0.2(2026 年 1 月)

智能指数

智能指数综合多套评测数据集,从推理、知识、数学与编程等维度评估语言模型能力,是对整体智能的有益综合,可用于模型间比较。与所有评测指标一样,其有局限性且未必直接适用于每种场景,但我们认为其比现有其他单一指标更能反映模型间的综合差异。

v4.0 包含 10 项评测:GDPval-AA、𝜏²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam (HLE)、GPQA Diamond、CritPt,方法论强调公平性与现实适用性。

基于对部分模型在 Index 所含数据集上超过 10 次重复实验,我们估计智能指数的 95% 置信区间小于 ±1%;单项评测的置信区间可能更宽。智能指数为纯文本、英语评测套件;图像输入、语音输入与多语言表现另行评测。

智能指数评测套件

指数由四类评测的加权平均计算,每类占 25%。

类别 评测 领域 题量 工具使用
智能体 (25%)GDPval-AA真实世界知识工作220 任务
𝜏²-Bench Telecom智能体工作流114
编程 (25%)Terminal-Bench Hard终端任务执行44
SciCode代码生成338 子问题
通用 (25%)AA-LCR长上下文推理100
AA-Omniscience知识与幻觉6,000
IFBench指令遵循294
科学推理 (25%)HLE推理与知识2,158
GPQA Diamond科学推理198
CritPt物理推理70

其他评测

多语言指数:基于 Global-MMLU-Lite 等多语言评测,支持英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、葡萄牙语、印尼语、日语、斯瓦希里语、德语、韩语、意大利语、约鲁巴语、缅甸语等。

独立于智能指数的评测还包括:MMLU-Pro(推理与知识)、AIME 2025(竞赛数学)、LiveCodeBench(代码生成)、MMMU Pro(视觉推理)等,各有题量、重复次数与计分方式,详见 Artificial Analysis 官网。

智能评测原则

  • 标准化:所有模型在相同条件下评测,提示策略、温度与评判标准一致。
  • 无偏:采用避免不当惩罚「正确遵循指令」答案的评判方式,包括清晰提示、鲁棒答案抽取与灵活验证。
  • 零样本指令提示:使用清晰指令、无示例,测试模型在无 few-shot 下的指令遵循能力,与当代指令微调/对话模型对齐。
  • 透明:完整披露方法论、提示模板、评判标准与局限。

通用测试参数

  • 温度:非推理模型 0,推理模型 0.6(除非模型方另有建议)。
  • 最大输出 token:非推理模型 16,384(若模型上下文或上限更小则下调);推理模型采用模型方披露的最大输出 token。
  • 代码环境:Ubuntu 22.04 LTS,Python 3.12。
  • 错误处理:API 失败自动重试(最多 30 次);若 30 次均失败则人工复核,因持续 API 故障导致的问题不发布;专有模型全部 API 均屏蔽某题时可能略微拉低分数。
  • 计分:普遍采用 pass@1(首次尝试即需正确);多轮重复时 pass@1 为各轮结果汇总。公式:pass@1 = (1/k) Σ pi,其中 pi 为第 i 次尝试是否正确(1/0),k 为总尝试次数。

评测套件要点简述

MMLU-Pro:多领域进阶知识,10 选一选择题,正则抽取答案、pass@1。

HLE (Humanity's Last Exam):Centre for AI Safety 前沿学术基准,2,158 道纯文本题(数学、人文、自然科学),使用 GPT-4o 等值性检查 LLM、pass@1。注意:数据集构建时曾基于 GPT-4o、Gemini、Claude、o1 等筛选题目,与未参与构建的模型直接对比需谨慎。

GPQA Diamond:科学知识与推理,198 题(生物、物理、化学),4 选一,正则抽取、pass@1。

AIME 2025:美国数学邀请赛 2025,严格数值答案(1–999 整数),10 轮 pass@1,SymPy 归一化 + LLM 等值检查备用。

SciCode:科学计算 Python 代码,含科学家标注背景提示,子问题级计分、pass@1。

LiveCodeBench:LeetCode/AtCoder/Codeforces 风格编程,Python、单元测试通过即正确,pass@1;我们不使用其自定义系统提示。

IFBench:单轮指令遵循,294 题、5 轮,使用官方评估代码、宽松模式以容忍多余格式。

AA-LCR:长上下文推理,约 100k token(cl100k_base)输入,100 道难题、7 类文档,使用 Qwen3 235B 等值检查、pass@1。

Terminal-Bench Hard:斯坦福与 Laude 联合发布的智能体基准,终端界面完成软件工程、系统管理、游戏等任务,44 个困难任务,Terminus 2 作为统一 harness,pass@1、3 轮平均;每任务最多 100 个 episode、24 小时超时、每轮每任务累计输入 token 上限 100 万。

𝜏²-Bench Telecom:Sierra 开发的对话智能体「双控」评测,114 个电信域任务,世界状态判定成功、pass@1、3 轮,用户模拟使用 Qwen3 235B,每任务最多 100 步。

AA-Omniscience:知识与幻觉,6,000 题、42 主题,答案分为 CORRECT/INCORRECT/PARTIALLY_CORRECT/NOT_ATTEMPTED,使用 Gemini 等评分;Index 中为准确率与(1−幻觉率)各 50% 的加权。

CritPt:物理推理研究级基准,70 题,数值、SymPy 符号与 Python 函数等形式,官方评分服务器;两阶段解析(推理 + 答案格式化)。

GDPval-AA:OpenAI GDPval 的 Artificial Analysis 评测框架,44 个职业、经济价值任务,提交文件后由 Gemini 等对同任务两模型提交进行盲评、ELO;Index 中 ELO 冻结并归一化 clamp((ELO−500)/2000)。智能体使用 Stirrup harness,含 Web Fetch、Web Search、View Image、Run Shell、Finish 等工具,E2B 沙箱、100 轮上限、上下文超限时摘要续写。

版本历史

v4.0.3(2026 年 2 月至今):Omniscience 评分模型更新为 Gemini 3 Flash Preview (Reasoning)。

v4.0.2(2026 年 1–2 月):GDPval-AA ELO 重新锚定,提升对罕见沙箱故障的鲁棒性。

v4.0.1(2026 年 1 月):Terminal-Bench Hard 精简为 44 任务,移除因依赖问题无法运行的任务。

v4.0(2026 年 1 月):新增 GDPval-AA、AA-Omniscience、CritPt;移除 MMLU-Pro、LiveCodeBench、AIME 2025;新权重结构 智能体/编程/通用/科学推理 各 25%。

更早版本(v3.0 加入 Terminal-Bench、𝜏²-Bench 等;v2.x 加入 AA-LCR、IFBench、AIME 2025 等)见官网。

关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 5 ms
Developed with Cursor