OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2208.12415

Imagine with MuLan:用联合文本音乐表示实现高质量文生音乐

 
  river ·  2026-05-12 11:01:26 · 16 次点击  · 0 条评论  

MuLan: A Joint Embedding of Music Audio and Natural Language

论文标题: MuLan: 音乐音频与自然语言的联合嵌入

作者: Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis

提交日期: 2022年8月26日

主题分类:
- 主要:音频与语音处理 (eess.AS)
- 相关:计算与语言 (cs.CL),声音 (cs.SD),机器学习 (stat.ML)

摘要:

传统的音乐标注和基于内容的检索系统通常使用预定义的本体(ontologies)构建,这些本体覆盖固定的音乐属性或文本查询集。本文提出 MuLan,这是新一代声学模型的首次尝试,它将音乐音频直接与无约束的自然语言音乐描述相链接。MuLan 采用双塔(two-tower)联合音频-文本嵌入模型的形式,使用 4400 万条音乐录音(37 万小时)以及弱关联的自由形式文本注释进行训练。通过其与广泛音乐流派和文本风格(包括传统音乐标签)的兼容性,所得的音频-文本表示涵盖了现有本体,同时实现了真正的零样本(zero-shot)功能。我们通过一系列实验展示了 MuLan 嵌入的多功能性,包括迁移学习、零样本音乐标注、音乐领域的语言理解以及跨模态检索应用。

说明: 本文将在 ISMIR 2022 上发表。

16 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 37 ms
Developed with Cursor