Babillage 是一个由 kyutai 发布的多模态数据集,主要包含音频和文本数据。
该数据集适用于语音处理、音频-文本对齐、语言模型训练等相关领域的研究与应用开发。
可用于构建或微调语音识别、语音合成、音频内容理解等模型,尤其适合需要大规模音频-文本配对数据的任务。