OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  AI

印度 Sarvam AI 开源 Sarvam 30B 与 Sarvam 105B 推理模型

 
  expert ·  2026-03-09 22:26:42 · 4 次点击  · 0 条评论  

印度 AI 公司 Sarvam AI 宣布开源两款大语言模型 Sarvam 30BSarvam 105B。这两款模型均为从零开始训练的推理型模型,覆盖预训练、有监督微调以及强化学习等完整训练流程,并使用内部策划的大规模高质量数据集进行训练。

整个训练过程在印度本土完成,算力资源由 IndiaAI 项目提供支持。这一项目是印度推动本土 AI 基础设施建设的重要计划,旨在提升国内大模型研发能力。


从零训练的推理型模型

Sarvam 30B 和 Sarvam 105B 均采用完整的大模型训练流程,包括:

  1. 预训练(Pre-training)
    使用大规模高质量语料进行基础能力训练。

  2. 有监督微调(SFT)
    通过高质量指令数据强化模型的任务理解与回答能力。

  3. 强化学习(RL)
    进一步优化模型在复杂推理与交互任务中的表现。

通过这一训练流程,模型在推理任务、编程能力以及智能体相关任务中获得较强表现。


Sarvam 105B:面向复杂推理与智能体任务

在两款模型中,Sarvam 105B 是规模更大的旗舰版本。

该模型在以下任务中表现突出:

  • 复杂推理任务
  • 代码生成与编程辅助
  • AI 智能体(Agent)任务执行

较大的参数规模使其在多步骤推理和复杂任务处理上具有更强能力,适合用于研究与高性能应用场景。


Sarvam 30B:面向实时部署

相比之下,Sarvam 30B 更侧重实际应用场景。

该模型针对 实时推理和在线对话场景进行了优化,在实际对话使用案例中表现稳定。较小的模型规模使其在计算资源消耗和响应速度之间取得较好平衡,更适合部署在生产环境中。


印度语言能力表现突出

两款模型在印度语言相关的基准测试中取得了领先成绩。

测试结果显示:

  • 在多项印度语言评测中达到 当前最先进水平(SOTA)
  • 在部分任务中 超过参数规模明显更大的模型

这一表现主要得益于针对印度本土语言数据的高质量训练语料。


推动本土 AI 模型生态

Sarvam AI 表示,开源 Sarvam 系列模型的目标之一是推动印度本土 AI 生态的发展。通过开放模型权重和技术能力,可以为开发者和研究机构提供基础模型平台,用于构建本地化 AI 应用。

随着各国持续投入 AI 基础设施建设,本土大模型项目正在成为全球 AI 竞争的重要组成部分。Sarvam 系列模型的发布也反映出印度在大模型研发方面的持续推进。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor