这是一个由 distil-whisper 发布的语音数据集,名为 peoples_speech-clean。它是从原始 People's Speech 数据集中提取并经过清理的版本。
该数据集主要用于语音识别(ASR)模型的训练与评估,特别是为构建更高效、更精确的语音转文本模型提供高质量的语音-文本对数据。
distil-whisper 发布,暗示该数据集可能特别适用于知识蒸馏场景,即用于训练更轻量、更高效的 Whisper 语音识别模型变体。gated: false),可以公开下载和使用。