OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
社区运行状况
注册会员 1032
主题 361
模型 2962
技能包 6701
数据集 1026
论文 236
开源项目 319

语音转文字评测方法论

关键指标

词错误率(WER)

WER 通过将模型输出与参考转写(经人工核对的转写)对比来衡量转写准确率。

公式:

WER = (替换 + 插入 + 删除) ÷ 参考词数

示例:

  • 参考:the cat sat on the mat
  • 假设输出:cat is on the big mat
  • 错误:删除(the)、替换(sat→is)、插入(big) → WER = 3÷6 = 50%

速度系数

表示 API 转写速度相对音频实际时长的倍数;大于 1 表示快于实时(如 2.0 表示 10 分钟音频可在 5 分钟内转写完成)。

公式:

速度系数 = 音频时长 ÷ API 响应时间

每 1000 分钟价格

转写 1000 分钟音频(实时时长)的成本。部分厂商(如 Replicate、fal)按处理时间计费:我们使用约 100 个多样本音频测得平均每分钟处理时间,再乘以每分钟处理单价进行估算。

词错误率(WER)评测

对所有模型-厂商组合独立进行 WER 测试,直接调用 API 以反映终端用户表现。

要点:

  • 当前评测约 8 小时音频,来自 AA-AgentTalk、VoxPopuli-Cleaned-AA、Earnings22-Cleaned-AA;各数据集内按时长加权平均,再按 50% AgentTalk、25% VoxPopuli、25% Earnings22 加权得到 AA-WER。
  • 仅使用时长 ≥5 秒的音频。
  • 同一模型多厂商时,若结果差异在 0.4% 以内则报告中位数 WER。
  • 支持提示的模型使用:「逐字转写音频,仅输出按顺序的口语内容。」

数据集

  1. AA-AgentTalk(自有、留出):面向语音助手场景的专有评测集,约 469 条、总长约 250 分钟。
  2. VoxPopuli-Cleaned-AA:欧洲议会演讲,英语子集,约 628 条、总长约 119 分钟。
  3. Earnings22-Cleaned-AA:财报电话会,技术用语与多人重叠,6 条、每条约 14–22 分钟,总长约 115 分钟。

归一化

对比前,参考转写与模型假设输出均使用 OpenAI Whisper 归一器处理:小写、去除括号内容与填充词、扩展缩写、数字与标点标准化等。我们还增加数字拆分、前导零保留、时间格式统一等规则。

WER 计算

基于 Levenshtein 距离,将模型转写(假设)对齐到参考转写所需的最少替换、插入、删除次数。各数据集内按音频时长加权平均 WER。

测试方法

  • 每天运行 4 次基准测试。
  • 指标取过去 14 天中位数。
  • 仅测试文件转写,不测实时流。

版本历史

AA-WER v2.0(2026 年 2 月至今):引入 AA-AgentTalk(50% 权重)、VoxPopuli/Earnings22 清洁参考转写、自定义归一器、新权重 50% AgentTalk / 25% Earnings22 / 25% VoxPopuli。

AA-WER v1.0(2025 年 9 月–2026 年 2 月):初版,AMI SDM、VoxPopuli、Earnings22 三个公开数据集,约 6 小时音频。

关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 4 ms
Developed with Cursor