印度 AI 公司 Sarvam AI 宣布开源两款大语言模型 Sarvam 30B 与 Sarvam 105B。这两款模型均为从零开始训练的推理型模型,覆盖预训练、有监督微调以及强化学习等完整训练流程,并使用内部策划的大规模高质量数据集进行训练。
整个训练过程在印度本土完成,算力资源由 IndiaAI 项目提供支持。这一项目是印度推动本土 AI 基础设施建设的重要计划,旨在提升国内大模型研发能力。
Sarvam 30B 和 Sarvam 105B 均采用完整的大模型训练流程,包括:
预训练(Pre-training)
使用大规模高质量语料进行基础能力训练。
有监督微调(SFT)
通过高质量指令数据强化模型的任务理解与回答能力。
强化学习(RL)
进一步优化模型在复杂推理与交互任务中的表现。
通过这一训练流程,模型在推理任务、编程能力以及智能体相关任务中获得较强表现。
在两款模型中,Sarvam 105B 是规模更大的旗舰版本。
该模型在以下任务中表现突出:
较大的参数规模使其在多步骤推理和复杂任务处理上具有更强能力,适合用于研究与高性能应用场景。
相比之下,Sarvam 30B 更侧重实际应用场景。
该模型针对 实时推理和在线对话场景进行了优化,在实际对话使用案例中表现稳定。较小的模型规模使其在计算资源消耗和响应速度之间取得较好平衡,更适合部署在生产环境中。
两款模型在印度语言相关的基准测试中取得了领先成绩。
测试结果显示:
这一表现主要得益于针对印度本土语言数据的高质量训练语料。
Sarvam AI 表示,开源 Sarvam 系列模型的目标之一是推动印度本土 AI 生态的发展。通过开放模型权重和技术能力,可以为开发者和研究机构提供基础模型平台,用于构建本地化 AI 应用。
随着各国持续投入 AI 基础设施建设,本土大模型项目正在成为全球 AI 竞争的重要组成部分。Sarvam 系列模型的发布也反映出印度在大模型研发方面的持续推进。