数据集简介
CoVoST 2 是由 Facebook(现 Meta)发布的一个大规模多语言语音翻译数据集。
主要用途
该数据集主要用于训练和评估语音到文本的翻译模型,特别关注跨语言语音翻译任务。
数据类型/模态
- 模态:语音、文本
- 核心内容:包含多种语言的语音片段及其对应的文本转录和翻译。
- 特点:这是一个多语言数据集,涵盖了从一种语言的语音到另一种语言文本的翻译对。
使用场景
- 自动语音识别(ASR):将语音转录为文本。
- 机器翻译(MT):进行文本到文本的翻译。
- 端到端语音翻译(ST):直接实现从源语言语音到目标语言文本的翻译,是其主要设计目标。
- 多语言模型研究:适用于训练和理解能够处理多种语言语音与文本的模型。