OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

社区运行状况

注册会员	1205
主题	846
模型	3026
技能包	13874
数据集	1047
论文	380
开源项目	602

社区天梯榜模型智能体技能包开源论文文档

排名时间线各厂商旗舰大模型厂商 LiveBench

评测方法论

范围

对 AI 模型、推理 API 端点及系统进行智能、质量、性能与价格维度的评测。本页说明我们的评测方法论，包括质量评测与性能评测。

在语言模型评测中，若客户仅按使用量付费、而非按固定费率使用系统，我们将其端点视为无服务器（serverless）。通常这意味着端点按 token 计费，输入与输出 token 往往采用不同价格。

在所有模态下，我们的性能评测衡量的是 AI 推理服务与系统的用户所体验的端到端性能。因此，评测结果不代表在某一硬件平台上的理论最大性能，而是旨在反映用户在各厂商间实际体验到的性能。

我们既评测闭源模型，也评测开放权重的模型。

方法论详情

评测涵盖以下类别：

语言模型智能语言模型 API 性能系统与硬件评测文生图语音转文字文字转语音语音推理

术语定义

本页及全站使用以下术语：

模型（Model）：大型语言模型（LLM），包括闭源、开源及开放权重模型。
模型创建方（Model Creator）：开发并训练该模型的组织。例如 OpenAI 是 GPT-4 的创建方，Meta 是 Llama 3 的创建方。
端点（Endpoint）：可通过 API 访问的模型托管实例。同一模型在不同厂商下可有多个端点。
系统（System）：用于运行 AI 模型的专用计算环境，通常为虚拟机等预置基础设施，可在负载下进行性能评测。
厂商（Provider）：托管并提供一个或多个模型端点或系统访问的公司，如 OpenAI、AWS Bedrock、Together.ai 等。公司常同时担任模型创建方与厂商。
无服务器（Serverless）：按使用量提供的云服务；就 LLM 推理 API 而言一般指按输入与输出 token 计费。无服务器产品仍运行在服务器上。
开放权重（Open Weights）：权重已由创建方公开释出的模型。我们使用「开放权重」或「开放」而非「开源」，因许多开放 LLM 的许可证并不完全符合开源软件定义。
Token：现代 LLM 以 token 为基础——即词与字符的数值表示。LLM 以 token 为输入并生成 token 输出，输入文本由分词器转为 token，不同模型使用不同分词器。
OpenAI Token：由 OpenAI GPT-3.5/GPT-4 分词器产生的 token（评测中常用 Python 的 tiktoken，o200k_base）。我们以 OpenAI token 作为统一计量单位以便跨模型公平比较，所有「每秒 token 数」均指 OpenAI token。
原生 Token（Native Tokens）：由模型自身分词器产生的 token。价格一般按原生 token 计。
价格（输入/输出）：厂商对每输入 token 与每输出 token 的收费。所示价格为厂商当前标价。
混合价格（Blended）：为便于比较，按输入与输出 token 3:1 比例计算混合价格：
混合价格 = (3×输入价格 + 输出价格) / 4
首 Token 时间（Time to First Token）：从发送请求到收到响应第一个 token 的秒数。对返回推理 token 的推理模型，指第一个推理 token。
首 Token 时间 = 首个 Token 到达时间 − 请求发送时间
首答 Token 时间（Time to First Answer Token）：从发送请求到收到响应中第一个答案 token 的秒数。对推理模型，在「思考」时间之后计量。
首答 Token 时间 = 输入处理时间 + 平均推理 Token 数 / 推理输出速度
输出速度（Output Speed，每秒输出 token 数）：收到首 token 后，平均每秒收到的 token 数。
输出速度 = (总 Token 数 − 首块 Token 数) / (末块到达时间 − 首块到达时间)
100 输出 Token 总响应时间：生成 100 个输出 token 所需秒数，由首 Token 时间与输出速度综合计算，以保证可比性。
总响应时间 = 首 Token 时间 + 100 / 输出速度
端到端响应时间（End-to-End Response Time）：收到完整响应所需总时间，含输入处理、模型推理与答案生成。
端到端响应时间 = 输入处理时间 + 平均推理 Token 数/推理输出速度 + 500/答案输出速度
平均推理 Token 数（Average Reasoning Tokens）：推理模型在给出答案前输出「推理」token 所花费的 token 数，基于 60 个多样化提示上的平均推理 token 数计算；无数据时假定 2k 推理 token。提示涵盖个人、商业、编程、数学、科学等，部分来自 Artificial Analysis 自写，部分来自 MMLU Pro、AIME 2025、LiveCodeBench 等评测。

AI模型天梯榜数据来源：Artificial Analysis - Comparison of AI Models