OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

社区运行状况

社区天梯榜模型智能体技能包开源论文文档

排名时间线各厂商旗舰大模型厂商 LiveBench

语音推理评测方法论

概述

本语音推理评测衡量支持原生音频输入与输出的模型（即「原生音频模型」）回答推理类问题的能力。

原生音频模型接收一段输入音频，并需生成一段包含答案的输出音频；输入音频中包含待回答问题，且不向模型提供任何额外信息。

模型输出的音频会先转写为「候选答案」，再交由自动评测系统评判。评判使用 AI 模型作为裁判：裁判模型在给定候选答案、标准答案与原始题目后，判断候选答案正确与否。

评测基于 Artificial Analysis Big Bench Audio 数据集。更多信息见 Hugging Face 数据集页面。