数据集简介
这是一个由 distil-whisper 团队提供的语音数据集,基于 VoxPopuli 语料库构建。该数据集主要用于语音识别(ASR)模型的训练与评估。
主要用途
- 语音识别模型训练:为自动语音识别系统提供训练数据。
- 模型蒸馏与优化:作为“蒸馏”过程的数据源,用于训练更小、更高效的 Whisper 语音识别模型变体。
数据类型/模态
- 模态:音频(语音)
- 主要数据:音频文件及其对应的转录文本。
数据来源与特点
- 基础语料:基于 VoxPopuli 数据集,这是一个大规模的多语言语音语料库,主要源自欧洲议会录音。
- 核心特点:数据内容具有多语言和领域特定(政治、议会演讲)的特点,语音风格较为正式。
使用场景
适用于需要训练或评估在多语言、正式演讲风格环境下表现良好的语音识别模型的研究与开发项目。特别适合用于模型压缩(如知识蒸馏)任务,以构建轻量化的 ASR 系统。