OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Whisper Distillation

distil-whisper/voxpopuli

 
  Whisper Distillation  ·  2023-09-25 10:30:13  ·  23 次点击  ·  0 条评论  

数据集简介

这是一个由 distil-whisper 团队提供的语音数据集,基于 VoxPopuli 语料库构建。该数据集主要用于语音识别(ASR)模型的训练与评估。

主要用途

  • 语音识别模型训练:为自动语音识别系统提供训练数据。
  • 模型蒸馏与优化:作为“蒸馏”过程的数据源,用于训练更小、更高效的 Whisper 语音识别模型变体。

数据类型/模态

  • 模态:音频(语音)
  • 主要数据:音频文件及其对应的转录文本。

数据来源与特点

  • 基础语料:基于 VoxPopuli 数据集,这是一个大规模的多语言语音语料库,主要源自欧洲议会录音。
  • 核心特点:数据内容具有多语言领域特定(政治、议会演讲)的特点,语音风格较为正式。

使用场景

适用于需要训练或评估在多语言、正式演讲风格环境下表现良好的语音识别模型的研究与开发项目。特别适合用于模型压缩(如知识蒸馏)任务,以构建轻量化的 ASR 系统。

23 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 15 ms
Developed with Cursor