OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
社区运行状况
注册会员 1032
主题 361
模型 2962
技能包 6701
数据集 1026
论文 236
开源项目 319

语言模型 API 性能评测方法论

概述

衡量 LLM 性能需要向模型发送提示并测量其输出的各项特征。我们使用多种测试负载进行评测。

负载类型

负载类型 说明
100 输入 token约 100 输入 token,300 输出 token
1k 输入 token约 1,000 输入 token,1,000 输出 token(本站默认基准)
10k 输入 token约 10,000 输入 token,1,500 输出 token
100k 输入 token约 100,000 输入 token,2,000 输出 token
视觉负载单张约 100 万像素图像 + 约 1,000 输入 token,1,000 输出 token

更长的提示可能导致首 token 时间更长、每秒输出 token 数降低。

负载场景

场景 说明
单次提示每次向模型 API 发送一条提示
并行提示同时向模型 API 发送 10 条提示

测试频率

  • 100、1k、10k 输入 token 及视觉负载每天测试 8 次,约每 3 小时一次。
  • 并行负载每天在随机时间发送一次 10 个并发的 1k 输入 token 标准负载。
  • 100k 输入 token 负载每周测试一次。

提示生成:每次测试使用在测试时生成的唯一提示,并在所有覆盖的端点上运行;我们已验证提示对推测解码具有防御性。

结果表示:性能取过去 72 小时的中位数(P50),以反映用户可预期的持续表现;100k 负载为每周一次,取过去 14 天中位数。

关键定义

  • 首 Token 时间:从发送请求到收到响应第一个 token 的秒数;推理模型为第一个推理 token。
    首 Token 时间 = 首个 Token 到达时间 − 请求发送时间
  • 首答 Token 时间:从发送请求到收到第一个答案 token 的秒数;推理模型在「思考」之后计量。
    首答 Token 时间 = 输入处理时间 + 平均推理 Token 数 / 推理输出速度
  • 输出速度:收到首 token 后平均每秒收到的 token 数。
    输出速度 = (总 Token 数 − 首块 Token 数) / (末块到达时间 − 首块到达时间)
  • 100 输出 Token 总响应时间:由首 Token 时间与输出速度综合计算。
    总响应时间 = 首 Token 时间 + 100 / 输出速度
  • 端到端响应时间:含输入处理、推理与答案生成的总时间。
    端到端响应时间 = 输入处理时间 + 平均推理 Token 数/推理输出速度 + 500/答案输出速度
  • 平均推理 Token 数:推理模型在给出答案前输出的推理 token 数,基于 60 个多样化提示的平均值;未有时假定 2k。提示来自 Artificial Analysis 自写及 MMLU Pro、AIME 2025、LiveCodeBench 等。

技术细节

服务器位置:主测试服务器位于 Google Cloud us-central1-a。

测试账号:使用匿名账号、带额度账号或厂商提供的评测用 API Key;若非匿名为主,会另注册匿名账号验证无操纵。

API 库:声称兼容 OpenAI API 的厂商统一使用官方 OpenAI Python 库;不兼容的使用其推荐客户端。

API 参数:temperature: 0,top_p: 1。

Token 计量:全站 token 均按 OpenAI tiktoken(o200k_base)计,以便跨模型统一比较。

已知局限

分词器与定价:不同模型分词器不同,同一文本 token 数可能不同,价格不能直接对比;我们正在完善分词器效率与定价分析。

量化:部分模型使用量化以降低算力、提升速度,但可能影响质量;我们将逐步披露所测模型的量化方式。

首 Token 时间受服务器位置与网络延迟影响;主测点在 us-central1-a,可能对部分厂商有利或不利,我们考虑增加测试地域。

关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 5 ms
Developed with Cursor