StepEval-Audio-Paralinguistic 数据集简介
概述
这是一个用于评估音频副语言能力的基准数据集,由 stepfun-ai 团队发布。副语言指语音中除文字内容外的特征,如语调、情感、重音等。
主要用途
用于测试和评估人工智能模型(特别是语音/音频模型)在理解和生成副语言信息方面的能力。
数据类型
- 模态类型:音频
- 数据格式:音频文件夹格式
- 数据集规模:包含 550 个样本
特点
- 专注于语音的副语言维度评估
- 规模适中,包含550个音频样本
- 可作为基准测试工具使用
适用场景
- 语音模型的能力评估
- 副语言理解研究
- 音频生成模型的基准测试