OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
社区运行状况
注册会员 1032
主题 361
模型 2962
技能包 6701
数据集 1026
论文 236
开源项目 319

系统与硬件评测方法论

概述

本评测在测试阶段维持固定的并行请求数,以此衡量系统性能。每当单次查询结束,会立即向该机器发送下一次查询,从而在稳定负载下进行评测并降低测试方差。

每个阶段内系统返回的 token 总量会被统计,并计入系统输出吞吐指标;单次查询的表现也会被记录,用于单查询指标(通常以中位数或均值表示)。

评测采用分阶段方式:每阶段持续 3 分钟,后续阶段逐步提高并发数,直至系统输出吞吐达到上限(即提高并发不再带来更多 token)为止。

主要技术规格

  • 阶段时长:每阶段 3 分钟(不含预热与冷却)。
  • 并发级别:1、2、4、8、16、32、64,之后按 64 递增,直至系统输出吞吐趋于平稳。
  • 负载形态:每次查询 1,000 输入 token、1,000 输出 token。
  • 流式:评测在开启流式输出的情况下进行。

主要指标

  • 系统输出吞吐:评测阶段内所有并发请求合计的每秒输出 token 数(平均)。
  • 响应率:阶段内发出的查询中获得响应(至少 1 个输出 token)的比例。
  • 单查询端到端延迟:从发送查询到收到完整响应的端到端时间,按各并发阶段的中位数报告。
  • 单查询输出速度:每条查询在收到首 token 后的每秒输出 token 数,按各并发阶段的中位数报告。
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 3 ms
Developed with Cursor