| 注册会员 | 1032 |
| 主题 | 361 |
| 模型 | 2962 |
| 技能包 | 6701 |
| 数据集 | 1026 |
| 论文 | 236 |
| 开源项目 | 319 |
本语音推理评测衡量支持原生音频输入与输出的模型(即「原生音频模型」)回答推理类问题的能力。
原生音频模型接收一段输入音频,并需生成一段包含答案的输出音频;输入音频中包含待回答问题,且不向模型提供任何额外信息。
模型输出的音频会先转写为「候选答案」,再交由自动评测系统评判。评判使用 AI 模型作为裁判:裁判模型在给定候选答案、标准答案与原始题目后,判断候选答案正确与否。
评测基于 Artificial Analysis Big Bench Audio 数据集。更多信息见 Hugging Face 数据集页面。