OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  Parakeet — 英伟达开源的高性能语音识别模型集合

Parakeet — 英伟达开源的高性能语音识别模型集合

 
  kingdom ·  2026-03-22 11:00:24 · 4 次点击  · 0 条评论  

项目状态:活跃 -- 项目已达到稳定可用状态,正在积极开发中。
文档
CodeQL
NeMo 核心及本仓库中集合的许可证
发布版本
Python 版本
PyPi 总下载量
代码风格: black

NVIDIA NeMo Speech

查看我们的 HuggingFace🤗 集合,获取最新的开放权重检查点和演示!

更新

  • 2026-03: Nemotron-Speech-Streaming v2603 已更新。它在更大、更多样化的语料库上进行了训练,在所有延迟模式下都实现了更低的词错误率。试试演示并查看对应的 NIM
  • 2026-03: MagpieTTS v2602 已发布,支持 9 种语言(英语、西班牙语、德语、法语、越南语、意大利语、中文、印地语、日语)。试试演示并查看对应的 NIM
  • 2026-01: Nemotron-Speech-Streaming 发布:一个检查点,让用户可以在延迟-准确率的帕累托曲线上选择最佳平衡点!
  • 2026-01: MagpieTTS 发布。
  • 2026: 本仓库已转向专注于音频、语音和多模态大语言模型。如需支持更多模态的最后一个 NeMo 版本,请查看 v2.7.0
  • 2025-08: Parakeet V3Canary V2 已发布,支持 25 种欧洲语言的语音识别和翻译。
  • 2025-06: Canary-Qwen-2.5B 已发布,在英语开放 ASR 排行榜上创下了 5.63% 的词错误率记录。

简介

NVIDIA NeMo Speech 专为从事语音模型(包括自动语音识别、文本转语音和语音大语言模型)研究的研究人员和 PyTorch 开发者而构建。它旨在帮助您利用现有代码和预训练模型检查点,高效地创建、定制和部署新的 AI 模型。

有关技术文档,请参阅 NeMo 框架用户指南

要求

  • Python 3.12 或更高版本
  • Pytorch 2.6 或更高版本
  • NVIDIA GPU(如果您打算进行模型训练)

Pytorch 2.6 起,torch.load 默认使用 weights_only=True。某些模型检查点可能需要使用 weights_only=False。在这种情况下,您可以在运行使用 torch.load 的代码之前设置环境变量 TORCH_FORCE_NO_WEIGHTS_ONLY_LOAD=1。但是,这仅应在处理受信任的文件时进行。从不信任的来源加载非仅权重的文件可能存在任意代码执行的风险。

开发者文档

版本 状态 描述
最新版 文档状态 最新(即 main 分支)的文档。
稳定版 文档状态 稳定版(即最新发布版本)的文档 - 即将添加

安装 NeMo Speech

NeMo Speech 可通过 pip 安装:pip install 'nemo-toolkit[all]'

为 NeMo 做贡献

我们欢迎社区贡献!请参考 CONTRIBUTING.md 了解流程。

许可证

NeMo 采用 Apache License 2.0 许可证。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor