OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Xiaomi

小米 OmniVoice:扩散式非自回归 TTS + 600 语种覆盖,语音基础模型进入“全模态生成层”

 
  customer ·  2026-04-09 17:48:43 · 2 次点击  · 0 条评论  

语音合成,正在从“功能模块”升级为“基础模型能力”。

近日,下一代 Kaldi 团队(k2-fsa)开源多语言 TTS 模型 OmniVoice。该模型支持超过 600 种语言,并在多项基准测试中达到 SOTA 水平,同时具备零样本语音克隆与高性能推理能力。

这一发布的核心意义,不只是语音质量提升,而是标志着 TTS 正在向“类似大语言模型的统一生成框架”演进。

从级联 Pipeline 到端到端生成:TTS 架构的再设计

传统 TTS 系统通常采用多阶段 pipeline:

  • 文本 → 语音学特征(如 phoneme、prosody)
  • 中间表示 → 声学模型生成波形
  • 声码器(vocoder)输出最终语音

这种结构虽然成熟,但存在几个问题:

  • 模块耦合复杂,难以统一优化
  • 延迟较高,不适合实时生成
  • 多语言扩展成本高

OmniVoice 通过离散非自回归(Non-Autoregressive)架构,直接从文本生成语音,跳过中间语义 token 层。

其设计借鉴扩散语言模型(Diffusion-style LM)思路,通过全码本随机掩码(Full-codebook Masking)进行训练,使模型能够在一次前向过程中完成语音生成。

这一变化带来的直接结果是:

  • 推理路径大幅简化
  • 延迟显著降低
  • 生成过程更稳定

从工程视角看,这是一种“将 TTS 转化为生成模型”的路径。

性能指标:从“可用”到“可规模化部署”

在关键指标上,OmniVoice 展现出较强竞争力:

  • 中文 WER(词错误率)低至约 0.84%
  • 多语言相似度(SIM-o)与识别一致性领先主流模型
  • 实时因子(RTF)约为 0.025

RTF=0.025 的含义是:生成速度约为实时的 40 倍。这意味着:

  • 长文本语音可以快速离线生成
  • 实时应用中几乎无感延迟
  • 支持高并发场景部署

相比传统自回归 TTS(逐帧生成),非自回归架构在吞吐量上具备明显优势。

零样本语音克隆:语音生成进入“Prompt 时代”

OmniVoice 支持通过 3–10 秒参考音频实现零样本语音克隆(Zero-shot Voice Cloning)。

其核心机制在于:

  • 从参考音频中提取 speaker embedding
  • 将其作为条件输入控制生成过程
  • 在不微调模型的情况下复现声音特征

同时,模型支持通过自然语言描述声音属性,例如:

  • 性别、年龄
  • 情绪与语气
  • 口音与方言
  • 特殊风格(如耳语、夸张表达)

这使语音生成逐渐具备类似 LLM 的“Prompt 控制能力”。

从 AI 工程角度看,这意味着:

  • 声音成为可编程对象
  • 语音生成可以融入 Agent 工作流
  • 多模态生成(文本 → 音频)进一步统一

多语言覆盖:从主流语种到长尾语言

OmniVoice 的一个突出特性,是覆盖超过 600 种语言。

相比传统 TTS 主要聚焦英语或少数主流语言,这一能力带来两个重要方向:

  • 长尾语言支持:降低小语种语音合成门槛
  • 文化数字化:为濒危语言提供可生成语音资产

其背后依赖:

  • 多语言统一表示学习(Multilingual Representation)
  • 大规模跨语言语料训练
  • 通道无关或语言无关建模策略

这与大语言模型在文本领域的多语种扩展路径高度一致。

精细控制:从语音生成到语音编辑

除了生成能力,OmniVoice 在可控性上也做了增强:

  • 支持非语言符号(如 [laughter])嵌入
  • 可通过拼音或音标修正发音
  • 对中文及方言场景有更高适配度

这类能力,使模型不仅能“说话”,还可以“演绎”。

对于实际应用(如内容创作、有声书、虚拟主播)而言,这种精细控制能力往往比单纯音质更关键。

开源与生态:语音模型进入“开发者时代”

OmniVoice 的开源,意味着语音生成能力正在向开发者全面开放。

开发者可以:

  • 本地部署模型
  • 集成到应用或 Agent 系统中
  • 基于现有模型进行微调或扩展

这将推动几个方向的发展:

  • AI 内容创作工具(视频、播客、虚拟人)
  • 多语言语音助手
  • 语音驱动的 Agent 系统

从趋势上看,语音模型正在从“云服务 API”,转变为“可嵌入的基础组件”。

行业意义:语音成为多模态生成的重要一环

OmniVoice 的发布,反映出一个更大的技术趋势:

语音正在从独立模态,融入统一的多模态生成体系。

在这一体系中:

  • 文本模型负责语义与推理
  • 语音模型负责表达与交互
  • 图像/视频模型负责视觉呈现

最终形成一个完整的生成闭环。

对于 AI Agent 来说,这意味着:

  • 可以“说话”并表达情绪
  • 能根据上下文动态调整语音风格
  • 在多设备环境中提供自然交互

结语:从“让机器发声”到“让机器表达”

OmniVoice 的价值,不只是让语音更清晰,而是让语音更“可控、可扩展、可编排”。

当语音生成具备类似大模型的通用性与灵活性时,它就不再是一个附属功能,而是 AI 系统中的核心表达层。

对于 AI 技术社区而言,下一个问题是:
当语音、文本、视觉都被统一建模后,Agent 将如何在这些模态之间进行真正的协同决策。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 14 ms
Developed with Cursor