| 注册会员 | 1032 |
| 主题 | 361 |
| 模型 | 2962 |
| 技能包 | 6701 |
| 数据集 | 1026 |
| 论文 | 236 |
| 开源项目 | 319 |
WER 通过将模型输出与参考转写(经人工核对的转写)对比来衡量转写准确率。
公式:
WER = (替换 + 插入 + 删除) ÷ 参考词数
示例:
表示 API 转写速度相对音频实际时长的倍数;大于 1 表示快于实时(如 2.0 表示 10 分钟音频可在 5 分钟内转写完成)。
公式:
速度系数 = 音频时长 ÷ API 响应时间
转写 1000 分钟音频(实时时长)的成本。部分厂商(如 Replicate、fal)按处理时间计费:我们使用约 100 个多样本音频测得平均每分钟处理时间,再乘以每分钟处理单价进行估算。
对所有模型-厂商组合独立进行 WER 测试,直接调用 API 以反映终端用户表现。
要点:
对比前,参考转写与模型假设输出均使用 OpenAI Whisper 归一器处理:小写、去除括号内容与填充词、扩展缩写、数字与标点标准化等。我们还增加数字拆分、前导零保留、时间格式统一等规则。
基于 Levenshtein 距离,将模型转写(假设)对齐到参考转写所需的最少替换、插入、删除次数。各数据集内按音频时长加权平均 WER。
AA-WER v2.0(2026 年 2 月至今):引入 AA-AgentTalk(50% 权重)、VoxPopuli/Earnings22 清洁参考转写、自定义归一器、新权重 50% AgentTalk / 25% Earnings22 / 25% VoxPopuli。
AA-WER v1.0(2025 年 9 月–2026 年 2 月):初版,AMI SDM、VoxPopuli、Earnings22 三个公开数据集,约 6 小时音频。