OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

社区运行状况

社区天梯榜模型智能体技能包开源论文文档

排名时间线各厂商旗舰大模型厂商 LiveBench

语音转文字评测方法论

关键指标

WER 通过将模型输出与参考转写（经人工核对的转写）对比来衡量转写准确率。

公式：

WER = (替换 + 插入 + 删除) ÷ 参考词数

示例：

表示 API 转写速度相对音频实际时长的倍数；大于 1 表示快于实时（如 2.0 表示 10 分钟音频可在 5 分钟内转写完成）。

公式：

速度系数 = 音频时长 ÷ API 响应时间

转写 1000 分钟音频（实时时长）的成本。部分厂商（如 Replicate、fal）按处理时间计费：我们使用约 100 个多样本音频测得平均每分钟处理时间，再乘以每分钟处理单价进行估算。

对所有模型-厂商组合独立进行 WER 测试，直接调用 API 以反映终端用户表现。

要点：

当前评测约 8 小时音频，来自 AA-AgentTalk、VoxPopuli-Cleaned-AA、Earnings22-Cleaned-AA；各数据集内按时长加权平均，再按 50% AgentTalk、25% VoxPopuli、25% Earnings22 加权得到 AA-WER。
仅使用时长 ≥5 秒的音频。
同一模型多厂商时，若结果差异在 0.4% 以内则报告中位数 WER。
支持提示的模型使用：「逐字转写音频，仅输出按顺序的口语内容。」

对比前，参考转写与模型假设输出均使用 OpenAI Whisper 归一器处理：小写、去除括号内容与填充词、扩展缩写、数字与标点标准化等。我们还增加数字拆分、前导零保留、时间格式统一等规则。

基于 Levenshtein 距离，将模型转写（假设）对齐到参考转写所需的最少替换、插入、删除次数。各数据集内按音频时长加权平均 WER。

AA-WER v2.0（2026 年 2 月至今）：引入 AA-AgentTalk（50% 权重）、VoxPopuli/Earnings22 清洁参考转写、自定义归一器、新权重 50% AgentTalk / 25% Earnings22 / 25% VoxPopuli。

AA-WER v1.0（2025 年 9 月–2026 年 2 月）：初版，AMI SDM、VoxPopuli、Earnings22 三个公开数据集，约 6 小时音频。