OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

社区运行状况

注册会员	1100
主题	846
模型	3026
技能包	13874
数据集	1047
论文	331
开源项目	532

社区天梯榜模型智能体技能包开源论文文档

排名时间线各厂商旗舰大模型厂商 LiveBench

语言模型智能评测方法论

Artificial Analysis智能指数v4.0.2（2026 年 1 月）

智能指数

智能指数综合多套评测数据集，从推理、知识、数学与编程等维度评估语言模型能力，是对整体智能的有益综合，可用于模型间比较。与所有评测指标一样，其有局限性且未必直接适用于每种场景，但我们认为其比现有其他单一指标更能反映模型间的综合差异。

v4.0 包含 10 项评测：GDPval-AA、𝜏²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam (HLE)、GPQA Diamond、CritPt，方法论强调公平性与现实适用性。

基于对部分模型在 Index 所含数据集上超过 10 次重复实验，我们估计智能指数的 95% 置信区间小于 ±1%；单项评测的置信区间可能更宽。智能指数为纯文本、英语评测套件；图像输入、语音输入与多语言表现另行评测。

智能指数评测套件

指数由四类评测的加权平均计算，每类占 25%。

类别	评测	领域	题量	工具使用
智能体 (25%)	GDPval-AA	真实世界知识工作	220 任务	✓
智能体 (25%)	𝜏²-Bench Telecom	智能体工作流	114	✓
编程 (25%)	Terminal-Bench Hard	终端任务执行	44	✗
编程 (25%)	SciCode	代码生成	338 子问题	✗
通用 (25%)	AA-LCR	长上下文推理	100	✗
	AA-Omniscience	知识与幻觉	6,000	✗
	IFBench	指令遵循	294	✗
科学推理 (25%)	HLE	推理与知识	2,158	✗
	GPQA Diamond	科学推理	198	✗
	CritPt	物理推理	70	✗

其他评测

多语言指数：基于 Global-MMLU-Lite 等多语言评测，支持英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、葡萄牙语、印尼语、日语、斯瓦希里语、德语、韩语、意大利语、约鲁巴语、缅甸语等。

独立于智能指数的评测还包括：MMLU-Pro（推理与知识）、AIME 2025（竞赛数学）、LiveCodeBench（代码生成）、MMMU Pro（视觉推理）等，各有题量、重复次数与计分方式，详见 Artificial Analysis 官网。

智能评测原则

标准化：所有模型在相同条件下评测，提示策略、温度与评判标准一致。
无偏：采用避免不当惩罚「正确遵循指令」答案的评判方式，包括清晰提示、鲁棒答案抽取与灵活验证。
零样本指令提示：使用清晰指令、无示例，测试模型在无 few-shot 下的指令遵循能力，与当代指令微调/对话模型对齐。
透明：完整披露方法论、提示模板、评判标准与局限。

通用测试参数

温度：非推理模型 0，推理模型 0.6（除非模型方另有建议）。
最大输出 token：非推理模型 16,384（若模型上下文或上限更小则下调）；推理模型采用模型方披露的最大输出 token。
代码环境：Ubuntu 22.04 LTS，Python 3.12。
错误处理：API 失败自动重试（最多 30 次）；若 30 次均失败则人工复核，因持续 API 故障导致的问题不发布；专有模型全部 API 均屏蔽某题时可能略微拉低分数。
计分：普遍采用 pass@1（首次尝试即需正确）；多轮重复时 pass@1 为各轮结果汇总。公式：pass@1 = (1/k) Σ p_i，其中 p_i 为第 i 次尝试是否正确（1/0），k 为总尝试次数。

评测套件要点简述

MMLU-Pro：多领域进阶知识，10 选一选择题，正则抽取答案、pass@1。

HLE (Humanity's Last Exam)：Centre for AI Safety 前沿学术基准，2,158 道纯文本题（数学、人文、自然科学），使用 GPT-4o 等值性检查 LLM、pass@1。注意：数据集构建时曾基于 GPT-4o、Gemini、Claude、o1 等筛选题目，与未参与构建的模型直接对比需谨慎。

GPQA Diamond：科学知识与推理，198 题（生物、物理、化学），4 选一，正则抽取、pass@1。

AIME 2025：美国数学邀请赛 2025，严格数值答案（1–999 整数），10 轮 pass@1，SymPy 归一化 + LLM 等值检查备用。

SciCode：科学计算 Python 代码，含科学家标注背景提示，子问题级计分、pass@1。

LiveCodeBench：LeetCode/AtCoder/Codeforces 风格编程，Python、单元测试通过即正确，pass@1；我们不使用其自定义系统提示。

IFBench：单轮指令遵循，294 题、5 轮，使用官方评估代码、宽松模式以容忍多余格式。

AA-LCR：长上下文推理，约 100k token（cl100k_base）输入，100 道难题、7 类文档，使用 Qwen3 235B 等值检查、pass@1。

Terminal-Bench Hard：斯坦福与 Laude 联合发布的智能体基准，终端界面完成软件工程、系统管理、游戏等任务，44 个困难任务，Terminus 2 作为统一 harness，pass@1、3 轮平均；每任务最多 100 个 episode、24 小时超时、每轮每任务累计输入 token 上限 100 万。

𝜏²-Bench Telecom：Sierra 开发的对话智能体「双控」评测，114 个电信域任务，世界状态判定成功、pass@1、3 轮，用户模拟使用 Qwen3 235B，每任务最多 100 步。

AA-Omniscience：知识与幻觉，6,000 题、42 主题，答案分为 CORRECT/INCORRECT/PARTIALLY_CORRECT/NOT_ATTEMPTED，使用 Gemini 等评分；Index 中为准确率与（1−幻觉率）各 50% 的加权。

CritPt：物理推理研究级基准，70 题，数值、SymPy 符号与 Python 函数等形式，官方评分服务器；两阶段解析（推理 + 答案格式化）。

GDPval-AA：OpenAI GDPval 的 Artificial Analysis 评测框架，44 个职业、经济价值任务，提交文件后由 Gemini 等对同任务两模型提交进行盲评、ELO；Index 中 ELO 冻结并归一化 clamp((ELO−500)/2000)。智能体使用 Stirrup harness，含 Web Fetch、Web Search、View Image、Run Shell、Finish 等工具，E2B 沙箱、100 轮上限、上下文超限时摘要续写。

版本历史

v4.0.3（2026 年 2 月至今）：Omniscience 评分模型更新为 Gemini 3 Flash Preview (Reasoning)。

v4.0.2（2026 年 1–2 月）：GDPval-AA ELO 重新锚定，提升对罕见沙箱故障的鲁棒性。

v4.0.1（2026 年 1 月）：Terminal-Bench Hard 精简为 44 任务，移除因依赖问题无法运行的任务。

v4.0（2026 年 1 月）：新增 GDPval-AA、AA-Omniscience、CritPt；移除 MMLU-Pro、LiveCodeBench、AIME 2025；新权重结构智能体/编程/通用/科学推理各 25%。

更早版本（v3.0 加入 Terminal-Bench、𝜏²-Bench 等；v2.x 加入 AA-LCR、IFBench、AIME 2025 等）见官网。