# StyleSinger: Out-of-Domain 歌唱语音合成的风格迁移
## 标题
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis
## 作者
Yu Zhang, Rongjie Huang, Ruiqi Li, JinZheng He, Yan Xia, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao
## 摘要
本文提出 StyleSinger,首个用于零样本(zero-shot)风格迁移的歌唱语音合成(SVS)模型,其目标是利用参考歌唱语音样本中未见过的风格(如音色、情感、发音和吐字技巧),生成高质量歌声。该模型引入了两种关键方法以提升效果:1)残差风格适配器(RSA),通过残差量化模块捕获歌唱语音中的多样风格特征;2)不确定性建模层归一化(UMLN),用于在训练阶段扰动内容表示中的风格属性,从而提高模型泛化能力。大量评估证明,StyleSinger 在零样本风格迁移中的音频质量和与参考样本的相似度方面均优于基线模型。
## 主题/分类
- Audio and Speech Processing (eess.AS)
- Computation and Language (cs.CL)
- Sound (cs.SD)
## 备注
- 投稿日期:2023年12月17日(v1);最后修订于2025年5月30日(v5)
- 被 AAAI 2024 录用
- 演示页面:https://aaronz345.github.io/StyleSingerDemo/