| 注册会员 | 1032 |
| 主题 | 361 |
| 模型 | 2962 |
| 技能包 | 6701 |
| 数据集 | 1026 |
| 论文 | 236 |
| 开源项目 | 319 |
本评测在测试阶段维持固定的并行请求数,以此衡量系统性能。每当单次查询结束,会立即向该机器发送下一次查询,从而在稳定负载下进行评测并降低测试方差。
每个阶段内系统返回的 token 总量会被统计,并计入系统输出吞吐指标;单次查询的表现也会被记录,用于单查询指标(通常以中位数或均值表示)。
评测采用分阶段方式:每阶段持续 3 分钟,后续阶段逐步提高并发数,直至系统输出吞吐达到上限(即提高并发不再带来更多 token)为止。