| 注册会员 | 1032 |
| 主题 | 361 |
| 模型 | 2962 |
| 技能包 | 6701 |
| 数据集 | 1026 |
| 论文 | 236 |
| 开源项目 | 319 |
衡量 LLM 性能需要向模型发送提示并测量其输出的各项特征。我们使用多种测试负载进行评测。
| 负载类型 | 说明 |
|---|---|
| 100 输入 token | 约 100 输入 token,300 输出 token |
| 1k 输入 token | 约 1,000 输入 token,1,000 输出 token(本站默认基准) |
| 10k 输入 token | 约 10,000 输入 token,1,500 输出 token |
| 100k 输入 token | 约 100,000 输入 token,2,000 输出 token |
| 视觉负载 | 单张约 100 万像素图像 + 约 1,000 输入 token,1,000 输出 token |
更长的提示可能导致首 token 时间更长、每秒输出 token 数降低。
| 场景 | 说明 |
|---|---|
| 单次提示 | 每次向模型 API 发送一条提示 |
| 并行提示 | 同时向模型 API 发送 10 条提示 |
提示生成:每次测试使用在测试时生成的唯一提示,并在所有覆盖的端点上运行;我们已验证提示对推测解码具有防御性。
结果表示:性能取过去 72 小时的中位数(P50),以反映用户可预期的持续表现;100k 负载为每周一次,取过去 14 天中位数。
服务器位置:主测试服务器位于 Google Cloud us-central1-a。
测试账号:使用匿名账号、带额度账号或厂商提供的评测用 API Key;若非匿名为主,会另注册匿名账号验证无操纵。
API 库:声称兼容 OpenAI API 的厂商统一使用官方 OpenAI Python 库;不兼容的使用其推荐客户端。
API 参数:temperature: 0,top_p: 1。
Token 计量:全站 token 均按 OpenAI tiktoken(o200k_base)计,以便跨模型统一比较。
分词器与定价:不同模型分词器不同,同一文本 token 数可能不同,价格不能直接对比;我们正在完善分词器效率与定价分析。
量化:部分模型使用量化以降低算力、提升速度,但可能影响质量;我们将逐步披露所测模型的量化方式。
首 Token 时间受服务器位置与网络延迟影响;主测点在 us-central1-a,可能对部分厂商有利或不利,我们考虑增加测试地域。