OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  社区  ›  自动语音识别

AA-WER v2.0:面向语音识别的新一代准确率基准

 
  mcp ·  2026-03-03 21:50:17 · 13 次点击  · 0 条评论  

Artificial Analysis 发布了 AA-WER v2.0,这是一个针对 Speech-to-Text(语音转文字)准确率评估的重大更新基准,重点考察语音助手及类似场景下的语音识别性能。


🎙 为什么需要 AA-WER v2.0?

目前流行的公开语音识别测试集大多来自书面语录制、会议记录或新闻播报,这些数据与用户在智能助手或语音代理中的自然交互语音差异较大。此外,现有基准的原始转录文稿中存在错误,会导致错误地惩罚一些实际准确率更高的模型。

AA-WER v2.0 旨在解决这些问题,通过引入更贴近真实使用场景的数据集和清理后的基准集,更公平地评估模型真实表现。


🧠 核心更新内容

AA-WER v2.0 共引入了以下五项重大改进:

  1. AA-AgentTalk 数据集(独家自有)
    - 含 469 条样本,总计约 250 分钟语音
    - 专注语音助手交互类语音,涵盖多种说话风格和口音
  2. 清理后的 VoxPopuli 和 Earnings22 文稿
    - 修正了原始数据中地面真值转录错误,更真实反映语音转写
  3. 移除错误率过高的数据集(如 AMI-SDM)
  4. 改进的文本规范化工具
    - 能减少由格式和拼写差异造成的错误率影响
  5. 重新设计权重分配机制
    - AA-AgentTalk 占 50%
    - 其余两个清理数据集各占 25%

📊 基准覆盖的数据集与权重

数据集 类型 语音时长 权重
AA-AgentTalk 语音代理交互类 ~250 分钟 50%
VoxPopuli-Cleaned-AA 政府会议语音 ~119 分钟 25%
Earnings22-Cleaned-AA 企业业绩通话 ~115 分钟 25%

🏆 AA-WER v2.0 最新结果亮点

在这次评估中,多款语音识别模型表现优异:

  • ElevenLabs Scribe v2 —— 2.3% AA-WER(整体领先)
  • Google Gemini 3 Pro —— 2.9%
  • Mistral Voxtral Small —— 3.0%
  • Gemini 2.5 Pro —— 3.1%
  • Gemini 3 Flash —— 3.2%

在各子数据集上,模型表现也有所差异,例如 ElevenLabs 在 AA-AgentTalk 任务中表现突出,而 Gemini 3 Pro 在政府会议类数据上表现最佳。


🆕 AA-AgentTalk:专注语音助手交互

AA-AgentTalk 是 AA-WER v2.0 的核心数据来源,覆盖:

  • 不同说话风格和口音
  • 真实设备环境的采集
  • 多种真实使用场景,如客户支持、安排日程、技术咨询等

这一数据集相比传统语音评测更贴合用户实际输入语音,有助于评估语音代理的真实表现。


📌 清理后的公开基准提升了公平性

原始公开语音数据集(如 VoxPopuli 和 Earnings22)中存在许多地面真值错误,直接影响 WER 评估结果。通过人工校对和修正,这些数据集成为更加可靠的测试基准,有助于更准确衡量不同模型的真正能力。


🔍 小结

AA-WER v2.0 不仅是一个语音识别准确率基准的升级版,还专注于现实世界语音交互场景,特别是智能助手和语音代理任务。通过引入更贴近应用的测试数据、清理精准的文本真值和改进的评估方法,它为开发者和研究者提供了更公平、更实用的语音识别评估标准。

13 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor