OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
社区运行状况
注册会员 1032
主题 361
模型 2962
技能包 6701
数据集 1026
论文 236
开源项目 319

评测方法论

范围

对 AI 模型、推理 API 端点及系统进行智能、质量、性能与价格维度的评测。本页说明我们的评测方法论,包括质量评测与性能评测。

在语言模型评测中,若客户仅按使用量付费、而非按固定费率使用系统,我们将其端点视为无服务器(serverless)。通常这意味着端点按 token 计费,输入与输出 token 往往采用不同价格。

在所有模态下,我们的性能评测衡量的是 AI 推理服务与系统的用户所体验的端到端性能。因此,评测结果不代表在某一硬件平台上的理论最大性能,而是旨在反映用户在各厂商间实际体验到的性能。

我们既评测闭源模型,也评测开放权重的模型。

术语定义

本页及全站使用以下术语:

  • 模型(Model):大型语言模型(LLM),包括闭源、开源及开放权重模型。
  • 模型创建方(Model Creator):开发并训练该模型的组织。例如 OpenAI 是 GPT-4 的创建方,Meta 是 Llama 3 的创建方。
  • 端点(Endpoint):可通过 API 访问的模型托管实例。同一模型在不同厂商下可有多个端点。
  • 系统(System):用于运行 AI 模型的专用计算环境,通常为虚拟机等预置基础设施,可在负载下进行性能评测。
  • 厂商(Provider):托管并提供一个或多个模型端点或系统访问的公司,如 OpenAI、AWS Bedrock、Together.ai 等。公司常同时担任模型创建方与厂商。
  • 无服务器(Serverless):按使用量提供的云服务;就 LLM 推理 API 而言一般指按输入与输出 token 计费。无服务器产品仍运行在服务器上。
  • 开放权重(Open Weights):权重已由创建方公开释出的模型。我们使用「开放权重」或「开放」而非「开源」,因许多开放 LLM 的许可证并不完全符合开源软件定义。
  • Token:现代 LLM 以 token 为基础——即词与字符的数值表示。LLM 以 token 为输入并生成 token 输出,输入文本由分词器转为 token,不同模型使用不同分词器。
  • OpenAI Token:由 OpenAI GPT-3.5/GPT-4 分词器产生的 token(评测中常用 Python 的 tiktoken,o200k_base)。我们以 OpenAI token 作为统一计量单位以便跨模型公平比较,所有「每秒 token 数」均指 OpenAI token。
  • 原生 Token(Native Tokens):由模型自身分词器产生的 token。价格一般按原生 token 计。
  • 价格(输入/输出):厂商对每输入 token 与每输出 token 的收费。所示价格为厂商当前标价。
  • 混合价格(Blended):为便于比较,按输入与输出 token 3:1 比例计算混合价格:
    混合价格 = (3×输入价格 + 输出价格) / 4
  • 首 Token 时间(Time to First Token):从发送请求到收到响应第一个 token 的秒数。对返回推理 token 的推理模型,指第一个推理 token。
    首 Token 时间 = 首个 Token 到达时间 − 请求发送时间
  • 首答 Token 时间(Time to First Answer Token):从发送请求到收到响应中第一个答案 token 的秒数。对推理模型,在「思考」时间之后计量。
    首答 Token 时间 = 输入处理时间 + 平均推理 Token 数 / 推理输出速度
  • 输出速度(Output Speed,每秒输出 token 数):收到首 token 后,平均每秒收到的 token 数。
    输出速度 = (总 Token 数 − 首块 Token 数) / (末块到达时间 − 首块到达时间)
  • 100 输出 Token 总响应时间:生成 100 个输出 token 所需秒数,由首 Token 时间与输出速度综合计算,以保证可比性。
    总响应时间 = 首 Token 时间 + 100 / 输出速度
  • 端到端响应时间(End-to-End Response Time):收到完整响应所需总时间,含输入处理、模型推理与答案生成。
    端到端响应时间 = 输入处理时间 + 平均推理 Token 数/推理输出速度 + 500/答案输出速度
  • 平均推理 Token 数(Average Reasoning Tokens):推理模型在给出答案前输出「推理」token 所花费的 token 数,基于 60 个多样化提示上的平均推理 token 数计算;无数据时假定 2k 推理 token。提示涵盖个人、商业、编程、数学、科学等,部分来自 Artificial Analysis 自写,部分来自 MMLU Pro、AIME 2025、LiveCodeBench 等评测。
AI模型天梯榜数据来源:Artificial Analysis - Comparison of AI Models
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 289 ms
Developed with Cursor