OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

社区运行状况

社区天梯榜模型智能体技能包开源论文文档

排名时间线各厂商旗舰大模型厂商 LiveBench

语言模型 API 性能评测方法论

概述

衡量 LLM 性能需要向模型发送提示并测量其输出的各项特征。我们使用多种测试负载进行评测。

更长的提示可能导致首 token 时间更长、每秒输出 token 数降低。

场景	说明
单次提示	每次向模型 API 发送一条提示
并行提示	同时向模型 API 发送 10 条提示

提示生成：每次测试使用在测试时生成的唯一提示，并在所有覆盖的端点上运行；我们已验证提示对推测解码具有防御性。

结果表示：性能取过去 72 小时的中位数（P50），以反映用户可预期的持续表现；100k 负载为每周一次，取过去 14 天中位数。

首 Token 时间：从发送请求到收到响应第一个 token 的秒数；推理模型为第一个推理 token。
首 Token 时间 = 首个 Token 到达时间 − 请求发送时间
首答 Token 时间：从发送请求到收到第一个答案 token 的秒数；推理模型在「思考」之后计量。
首答 Token 时间 = 输入处理时间 + 平均推理 Token 数 / 推理输出速度
输出速度：收到首 token 后平均每秒收到的 token 数。
输出速度 = (总 Token 数 − 首块 Token 数) / (末块到达时间 − 首块到达时间)
100 输出 Token 总响应时间：由首 Token 时间与输出速度综合计算。
总响应时间 = 首 Token 时间 + 100 / 输出速度
端到端响应时间：含输入处理、推理与答案生成的总时间。
端到端响应时间 = 输入处理时间 + 平均推理 Token 数/推理输出速度 + 500/答案输出速度
平均推理 Token 数：推理模型在给出答案前输出的推理 token 数，基于 60 个多样化提示的平均值；未有时假定 2k。提示来自 Artificial Analysis 自写及 MMLU Pro、AIME 2025、LiveCodeBench 等。

服务器位置：主测试服务器位于 Google Cloud us-central1-a。

测试账号：使用匿名账号、带额度账号或厂商提供的评测用 API Key；若非匿名为主，会另注册匿名账号验证无操纵。

API 库：声称兼容 OpenAI API 的厂商统一使用官方 OpenAI Python 库；不兼容的使用其推荐客户端。

API 参数：temperature: 0，top_p: 1。

Token 计量：全站 token 均按 OpenAI tiktoken（o200k_base）计，以便跨模型统一比较。

分词器与定价：不同模型分词器不同，同一文本 token 数可能不同，价格不能直接对比；我们正在完善分词器效率与定价分析。

量化：部分模型使用量化以降低算力、提升速度，但可能影响质量；我们将逐步披露所测模型的量化方式。

首 Token 时间受服务器位置与网络延迟影响；主测点在 us-central1-a，可能对部分厂商有利或不利，我们考虑增加测试地域。