Artificial Analysis 发布了 AA-WER v2.0,这是一个针对 Speech-to-Text(语音转文字)准确率评估的重大更新基准,重点考察语音助手及类似场景下的语音识别性能。
目前流行的公开语音识别测试集大多来自书面语录制、会议记录或新闻播报,这些数据与用户在智能助手或语音代理中的自然交互语音差异较大。此外,现有基准的原始转录文稿中存在错误,会导致错误地惩罚一些实际准确率更高的模型。
AA-WER v2.0 旨在解决这些问题,通过引入更贴近真实使用场景的数据集和清理后的基准集,更公平地评估模型真实表现。
AA-WER v2.0 共引入了以下五项重大改进:
| 数据集 | 类型 | 语音时长 | 权重 |
|---|---|---|---|
| AA-AgentTalk | 语音代理交互类 | ~250 分钟 | 50% |
| VoxPopuli-Cleaned-AA | 政府会议语音 | ~119 分钟 | 25% |
| Earnings22-Cleaned-AA | 企业业绩通话 | ~115 分钟 | 25% |
在这次评估中,多款语音识别模型表现优异:
在各子数据集上,模型表现也有所差异,例如 ElevenLabs 在 AA-AgentTalk 任务中表现突出,而 Gemini 3 Pro 在政府会议类数据上表现最佳。
AA-AgentTalk 是 AA-WER v2.0 的核心数据来源,覆盖:
这一数据集相比传统语音评测更贴合用户实际输入语音,有助于评估语音代理的真实表现。
原始公开语音数据集(如 VoxPopuli 和 Earnings22)中存在许多地面真值错误,直接影响 WER 评估结果。通过人工校对和修正,这些数据集成为更加可靠的测试基准,有助于更准确衡量不同模型的真正能力。
AA-WER v2.0 不仅是一个语音识别准确率基准的升级版,还专注于现实世界语音交互场景,特别是智能助手和语音代理任务。通过引入更贴近应用的测试数据、清理精准的文本真值和改进的评估方法,它为开发者和研究者提供了更公平、更实用的语音识别评估标准。