Emu Video：基于扩散与多模态建模的高质量文本生成视频

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

# StyleSinger: Out-of-Domain 歌唱语音合成的风格迁移

## 标题
StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis

## 作者
Yu Zhang, Rongjie Huang, Ruiqi Li, JinZheng He, Yan Xia, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao

## 摘要
本文提出 StyleSinger，首个用于零样本（zero-shot）风格迁移的歌唱语音合成（SVS）模型，其目标是利用参考歌唱语音样本中未见过的风格（如音色、情感、发音和吐字技巧），生成高质量歌声。该模型引入了两种关键方法以提升效果：1）残差风格适配器（RSA），通过残差量化模块捕获歌唱语音中的多样风格特征；2）不确定性建模层归一化（UMLN），用于在训练阶段扰动内容表示中的风格属性，从而提高模型泛化能力。大量评估证明，StyleSinger 在零样本风格迁移中的音频质量和与参考样本的相似度方面均优于基线模型。

## 主题/分类
- Audio and Speech Processing (eess.AS)
- Computation and Language (cs.CL)
- Sound (cs.SD)

## 备注
- 投稿日期：2023年12月17日（v1）；最后修订于2025年5月30日（v5）
- 被 AAAI 2024 录用
- 演示页面：https://aaronz345.github.io/StyleSingerDemo/

论文地址：https://arxiv.org/abs/2312.10741

8 次点击 ∙ 0 人收藏

登录后收藏

0 条回复