近日,IBM 正式发布新一代语音模型 Granite 4.0 1B Speech。这是一款专为边缘计算和企业部署场景打造的紧凑型多模态语音大模型,重点提升多语种自动语音识别(ASR)与自动语音翻译(AST)能力,同时显著降低推理成本与资源占用。
与上一代 Granite 语音模型相比,Granite 4.0 1B Speech 的参数规模仅为前代的一半,但在实际性能上实现了明显提升。新版本不仅优化了英文语音转录准确率,还新增了日语 ASR 支持,并引入“关键词偏置(Keyword Biasing)”功能,使模型在识别特定专业词汇或品牌名称时更加精准。
这种设计使模型能够在移动设备、嵌入式系统和企业边缘服务器上运行,而无需依赖大型 GPU 集群。
Granite 4.0 1B Speech 采用了一种创新的两阶段模块化架构:
这种架构允许开发者根据需求自由组合处理流程,例如:
模块化设计也使企业能够在现有系统中灵活嵌入语音 AI 能力。
目前,Granite 4.0 1B Speech 已支持多语种识别与翻译,包括:
此外,模型还可以完成英语到中文(普通话)的翻译任务,为跨语言语音交互提供更多可能。
在语音识别评测平台 OpenASR Leaderboard 上,Granite 4.0 1B Speech 取得了领先成绩,其平均字错率(WER)仅为 5.52,在轻量级模型中表现尤为突出。
为了推动语音 AI 的普及,IBM 已将该模型以 Apache 2.0 许可证正式开源,并支持主流 AI 推理框架,包括:
开发者可以在本地环境快速部署这一模型,为移动端、IoT设备或边缘服务器提供高效的语音 AI 能力。
随着企业对实时语音交互、跨语言协作和边缘 AI需求的增加,像 Granite 4.0 1B Speech 这样轻量、高性能且开源的语音模型,正成为推动语音智能应用落地的重要基础设施。