distil-whisper/peoples

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介

这是一个由 distil-whisper 发布的语音数据集，名为 peoples_speech-clean。它是从原始 People's Speech 数据集中提取并经过清理的版本。

该数据集主要用于语音识别（ASR）模型的训练与评估，特别是为构建更高效、更精确的语音转文本模型提供高质量的语音-文本对数据。

高质量与清洁度：作为“clean”版本，它很可能经过了严格的数据过滤和预处理，去除了噪声大、质量差或转录不准确的样本，旨在提供更可靠、更干净的训练数据。
适用于模型蒸馏：由 distil-whisper 发布，暗示该数据集可能特别适用于知识蒸馏场景，即用于训练更轻量、更高效的 Whisper 语音识别模型变体。
易于获取：数据集未设置访问门控（gated: false），可以公开下载和使用。

63 次点击 ∙ 0 人收藏

登录后收藏

0 条回复