MuLan: A Joint Embedding of Music Audio and Natural Language

论文标题： MuLan: 音乐音频与自然语言的联合嵌入

作者： Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis

提交日期： 2022年8月26日

主题分类：
- 主要：音频与语音处理 (eess.AS)
- 相关：计算与语言 (cs.CL)，声音 (cs.SD)，机器学习 (stat.ML)

摘要：

传统的音乐标注和基于内容的检索系统通常使用预定义的本体（ontologies）构建，这些本体覆盖固定的音乐属性或文本查询集。本文提出 MuLan，这是新一代声学模型的首次尝试，它将音乐音频直接与无约束的自然语言音乐描述相链接。MuLan 采用双塔（two-tower）联合音频-文本嵌入模型的形式，使用 4400 万条音乐录音（37 万小时）以及弱关联的自由形式文本注释进行训练。通过其与广泛音乐流派和文本风格（包括传统音乐标签）的兼容性，所得的音频-文本表示涵盖了现有本体，同时实现了真正的零样本（zero-shot）功能。我们通过一系列实验展示了 MuLan 嵌入的多功能性，包括迁移学习、零样本音乐标注、音乐领域的语言理解以及跨模态检索应用。

说明： 本文将在 ISMIR 2022 上发表。

论文地址：https://arxiv.org/abs/2208.12415

42 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Imagine with MuLan：用联合文本音乐表示实现高质量文生音乐

MuLan: A Joint Embedding of Music Audio and Natural Language