AA-WER v2.0：面向语音识别的新一代准确率基准

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Artificial Analysis 发布了 AA-WER v2.0，这是一个针对 Speech-to-Text（语音转文字）准确率评估的重大更新基准，重点考察语音助手及类似场景下的语音识别性能。

🎙 为什么需要 AA-WER v2.0？

目前流行的公开语音识别测试集大多来自书面语录制、会议记录或新闻播报，这些数据与用户在智能助手或语音代理中的自然交互语音差异较大。此外，现有基准的原始转录文稿中存在错误，会导致错误地惩罚一些实际准确率更高的模型。

AA-WER v2.0 旨在解决这些问题，通过引入更贴近真实使用场景的数据集和清理后的基准集，更公平地评估模型真实表现。

AA-WER v2.0 共引入了以下五项重大改进：

在这次评估中，多款语音识别模型表现优异：

在各子数据集上，模型表现也有所差异，例如 ElevenLabs 在 AA-AgentTalk 任务中表现突出，而 Gemini 3 Pro 在政府会议类数据上表现最佳。

AA-AgentTalk 是 AA-WER v2.0 的核心数据来源，覆盖：

这一数据集相比传统语音评测更贴合用户实际输入语音，有助于评估语音代理的真实表现。

原始公开语音数据集（如 VoxPopuli 和 Earnings22）中存在许多地面真值错误，直接影响 WER 评估结果。通过人工校对和修正，这些数据集成为更加可靠的测试基准，有助于更准确衡量不同模型的真正能力。

AA-WER v2.0 不仅是一个语音识别准确率基准的升级版，还专注于现实世界语音交互场景，特别是智能助手和语音代理任务。通过引入更贴近应用的测试数据、清理精准的文本真值和改进的评估方法，它为开发者和研究者提供了更公平、更实用的语音识别评估标准。

53 次点击 ∙ 0 人收藏

登录后收藏

0 条回复