Parakeet — 英伟达开源的高性能语音识别模型集合

kingdom · 2026-02-08 18:41:23 · 46 次点击 · 0 条评论

NVIDIA NeMo Speech

查看我们的 HuggingFace🤗 集合，获取最新的开放权重检查点和演示！

更新

2026-03: Nemotron-Speech-Streaming v2603 已更新。它在更大、更多样化的语料库上进行了训练，在所有延迟模式下都实现了更低的词错误率。试试演示并查看对应的 NIM。
2026-03: MagpieTTS v2602 已发布，支持 9 种语言（英语、西班牙语、德语、法语、越南语、意大利语、中文、印地语、日语）。试试演示并查看对应的 NIM。
2026-01: Nemotron-Speech-Streaming 发布：一个检查点，让用户可以在延迟-准确率的帕累托曲线上选择最佳平衡点！
2026-01: MagpieTTS 发布。
2026: 本仓库已转向专注于音频、语音和多模态大语言模型。如需支持更多模态的最后一个 NeMo 版本，请查看 v2.7.0。
2025-08: Parakeet V3 和 Canary V2 已发布，支持 25 种欧洲语言的语音识别和翻译。
2025-06: Canary-Qwen-2.5B 已发布，在英语开放 ASR 排行榜上创下了 5.63% 的词错误率记录。

简介

NVIDIA NeMo Speech 专为从事语音模型（包括自动语音识别、文本转语音和语音大语言模型）研究的研究人员和 PyTorch 开发者而构建。它旨在帮助您利用现有代码和预训练模型检查点，高效地创建、定制和部署新的 AI 模型。

有关技术文档，请参阅 NeMo 框架用户指南。

要求

Python 3.12 或更高版本
Pytorch 2.6 或更高版本
NVIDIA GPU（如果您打算进行模型训练）

自 Pytorch 2.6 起，torch.load 默认使用 weights_only=True。某些模型检查点可能需要使用 weights_only=False。在这种情况下，您可以在运行使用 torch.load 的代码之前设置环境变量 TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1。但是，这仅应在处理受信任的文件时进行。从不信任的来源加载非仅权重的文件可能存在任意代码执行的风险。

开发者文档

版本	状态	描述
最新版		最新（即 main 分支）的文档。
稳定版		稳定版（即最新发布版本）的文档 - 即将添加

安装 NeMo Speech

NeMo Speech 可通过 pip 安装：pip install 'nemo-toolkit[all]'

为 NeMo 做贡献

我们欢迎社区贡献！请参考 CONTRIBUTING.md 了解流程。

许可证

NeMo 采用 Apache License 2.0 许可证。

项目地址：https://github.com/NVIDIA/NeMo

46 次点击 ∙ 0 人收藏

登录后收藏

0 条回复