小米 OmniVoice：扩散式非自回归 TTS + 600 语种覆盖，语音基础模型进入“全模态生成层”

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

语音合成，正在从“功能模块”升级为“基础模型能力”。

近日，下一代 Kaldi 团队（k2-fsa）开源多语言 TTS 模型 OmniVoice。该模型支持超过 600 种语言，并在多项基准测试中达到 SOTA 水平，同时具备零样本语音克隆与高性能推理能力。

这一发布的核心意义，不只是语音质量提升，而是标志着 TTS 正在向“类似大语言模型的统一生成框架”演进。

从级联 Pipeline 到端到端生成：TTS 架构的再设计

传统 TTS 系统通常采用多阶段 pipeline：

文本 → 语音学特征（如 phoneme、prosody）
中间表示 → 声学模型生成波形
声码器（vocoder）输出最终语音

这种结构虽然成熟，但存在几个问题：

模块耦合复杂，难以统一优化
延迟较高，不适合实时生成
多语言扩展成本高

OmniVoice 通过离散非自回归（Non-Autoregressive）架构，直接从文本生成语音，跳过中间语义 token 层。

其设计借鉴扩散语言模型（Diffusion-style LM）思路，通过全码本随机掩码（Full-codebook Masking）进行训练，使模型能够在一次前向过程中完成语音生成。

这一变化带来的直接结果是：

推理路径大幅简化
延迟显著降低
生成过程更稳定

从工程视角看，这是一种“将 TTS 转化为生成模型”的路径。

性能指标：从“可用”到“可规模化部署”

在关键指标上，OmniVoice 展现出较强竞争力：

中文 WER（词错误率）低至约 0.84%
多语言相似度（SIM-o）与识别一致性领先主流模型
实时因子（RTF）约为 0.025

RTF=0.025 的含义是：生成速度约为实时的 40 倍。这意味着：

长文本语音可以快速离线生成
实时应用中几乎无感延迟
支持高并发场景部署

相比传统自回归 TTS（逐帧生成），非自回归架构在吞吐量上具备明显优势。

零样本语音克隆：语音生成进入“Prompt 时代”

OmniVoice 支持通过 3–10 秒参考音频实现零样本语音克隆（Zero-shot Voice Cloning）。

其核心机制在于：

从参考音频中提取 speaker embedding
将其作为条件输入控制生成过程
在不微调模型的情况下复现声音特征

同时，模型支持通过自然语言描述声音属性，例如：

性别、年龄
情绪与语气
口音与方言
特殊风格（如耳语、夸张表达）

这使语音生成逐渐具备类似 LLM 的“Prompt 控制能力”。

从 AI 工程角度看，这意味着：

声音成为可编程对象
语音生成可以融入 Agent 工作流
多模态生成（文本 → 音频）进一步统一

多语言覆盖：从主流语种到长尾语言

OmniVoice 的一个突出特性，是覆盖超过 600 种语言。

相比传统 TTS 主要聚焦英语或少数主流语言，这一能力带来两个重要方向：

长尾语言支持：降低小语种语音合成门槛
文化数字化：为濒危语言提供可生成语音资产

其背后依赖：

多语言统一表示学习（Multilingual Representation）
大规模跨语言语料训练
通道无关或语言无关建模策略

这与大语言模型在文本领域的多语种扩展路径高度一致。

精细控制：从语音生成到语音编辑

除了生成能力，OmniVoice 在可控性上也做了增强：

支持非语言符号（如 [laughter]）嵌入
可通过拼音或音标修正发音
对中文及方言场景有更高适配度

这类能力，使模型不仅能“说话”，还可以“演绎”。

对于实际应用（如内容创作、有声书、虚拟主播）而言，这种精细控制能力往往比单纯音质更关键。

开源与生态：语音模型进入“开发者时代”

OmniVoice 的开源，意味着语音生成能力正在向开发者全面开放。

开发者可以：

本地部署模型
集成到应用或 Agent 系统中
基于现有模型进行微调或扩展

这将推动几个方向的发展：

AI 内容创作工具（视频、播客、虚拟人）
多语言语音助手
语音驱动的 Agent 系统

从趋势上看，语音模型正在从“云服务 API”，转变为“可嵌入的基础组件”。

行业意义：语音成为多模态生成的重要一环

OmniVoice 的发布，反映出一个更大的技术趋势：

语音正在从独立模态，融入统一的多模态生成体系。

在这一体系中：

文本模型负责语义与推理
语音模型负责表达与交互
图像/视频模型负责视觉呈现

最终形成一个完整的生成闭环。

对于 AI Agent 来说，这意味着：

可以“说话”并表达情绪
能根据上下文动态调整语音风格
在多设备环境中提供自然交互

结语：从“让机器发声”到“让机器表达”

OmniVoice 的价值，不只是让语音更清晰，而是让语音更“可控、可扩展、可编排”。

当语音生成具备类似大模型的通用性与灵活性时，它就不再是一个附属功能，而是 AI 系统中的核心表达层。

对于 AI 技术社区而言，下一个问题是：
当语音、文本、视觉都被统一建模后，Agent 将如何在这些模态之间进行真正的协同决策。

38 次点击 ∙ 0 人收藏

登录后收藏

0 条回复