IBM 发布 Granite 4.0 1B Speech：面向边缘设备的轻量级多模态语音大模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

近日，IBM 正式发布新一代语音模型 Granite 4.0 1B Speech。这是一款专为边缘计算和企业部署场景打造的紧凑型多模态语音大模型，重点提升多语种自动语音识别（ASR）与自动语音翻译（AST）能力，同时显著降低推理成本与资源占用。

更小模型，更高效率

与上一代 Granite 语音模型相比，Granite 4.0 1B Speech 的参数规模仅为前代的一半，但在实际性能上实现了明显提升。新版本不仅优化了英文语音转录准确率，还新增了日语 ASR 支持，并引入“关键词偏置（Keyword Biasing）”功能，使模型在识别特定专业词汇或品牌名称时更加精准。

这种设计使模型能够在移动设备、嵌入式系统和企业边缘服务器上运行，而无需依赖大型 GPU 集群。

两阶段架构提升灵活性

Granite 4.0 1B Speech 采用了一种创新的两阶段模块化架构：

语音识别阶段：将音频信号转换为文本
语言理解阶段：由 Granite 语言模型进行推理与翻译

这种架构允许开发者根据需求自由组合处理流程，例如：

仅进行语音转文本（ASR）
实时语音翻译
语音驱动的智能助手

模块化设计也使企业能够在现有系统中灵活嵌入语音 AI 能力。

支持多语种语音翻译

目前，Granite 4.0 1B Speech 已支持多语种识别与翻译，包括：

英语
法语
德语
西班牙语
葡萄牙语
日语

此外，模型还可以完成英语到中文（普通话）的翻译任务，为跨语言语音交互提供更多可能。

性能登顶 OpenASR 榜单

在语音识别评测平台 OpenASR Leaderboard 上，Granite 4.0 1B Speech 取得了领先成绩，其平均字错率（WER）仅为 5.52，在轻量级模型中表现尤为突出。

Apache 2.0 开源，支持主流推理框架

为了推动语音 AI 的普及，IBM 已将该模型以 Apache 2.0 许可证正式开源，并支持主流 AI 推理框架，包括：

Hugging Face Transformers
vLLM

开发者可以在本地环境快速部署这一模型，为移动端、IoT设备或边缘服务器提供高效的语音 AI 能力。

随着企业对实时语音交互、跨语言协作和边缘 AI需求的增加，像 Granite 4.0 1B Speech 这样轻量、高性能且开源的语音模型，正成为推动语音智能应用落地的重要基础设施。

60 次点击 ∙ 0 人收藏

登录后收藏

0 条回复