论文标题: MuLan: 音乐音频与自然语言的联合嵌入
作者: Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis
提交日期: 2022年8月26日
主题分类:
- 主要:音频与语音处理 (eess.AS)
- 相关:计算与语言 (cs.CL),声音 (cs.SD),机器学习 (stat.ML)
摘要:
传统的音乐标注和基于内容的检索系统通常使用预定义的本体(ontologies)构建,这些本体覆盖固定的音乐属性或文本查询集。本文提出 MuLan,这是新一代声学模型的首次尝试,它将音乐音频直接与无约束的自然语言音乐描述相链接。MuLan 采用双塔(two-tower)联合音频-文本嵌入模型的形式,使用 4400 万条音乐录音(37 万小时)以及弱关联的自由形式文本注释进行训练。通过其与广泛音乐流派和文本风格(包括传统音乐标签)的兼容性,所得的音频-文本表示涵盖了现有本体,同时实现了真正的零样本(zero-shot)功能。我们通过一系列实验展示了 MuLan 嵌入的多功能性,包括迁移学习、零样本音乐标注、音乐领域的语言理解以及跨模态检索应用。
说明: 本文将在 ISMIR 2022 上发表。