OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

印度 AI 公司 Sarvam AI 宣布开源两款大语言模型 Sarvam 30B 与 Sarvam 105B。这两款模型均为从零开始训练的推理型模型，覆盖预训练、有监督微调以及强化学习等完整训练流程，并使用内部策划的大规模高质量数据集进行训练。

整个训练过程在印度本土完成，算力资源由 IndiaAI 项目提供支持。这一项目是印度推动本土 AI 基础设施建设的重要计划，旨在提升国内大模型研发能力。

从零训练的推理型模型

Sarvam 30B 和 Sarvam 105B 均采用完整的大模型训练流程，包括：

通过这一训练流程，模型在推理任务、编程能力以及智能体相关任务中获得较强表现。

Sarvam 105B：面向复杂推理与智能体任务

在两款模型中，Sarvam 105B 是规模更大的旗舰版本。

该模型在以下任务中表现突出：

较大的参数规模使其在多步骤推理和复杂任务处理上具有更强能力，适合用于研究与高性能应用场景。

相比之下，Sarvam 30B 更侧重实际应用场景。

该模型针对 实时推理和在线对话场景进行了优化，在实际对话使用案例中表现稳定。较小的模型规模使其在计算资源消耗和响应速度之间取得较好平衡，更适合部署在生产环境中。

两款模型在印度语言相关的基准测试中取得了领先成绩。

测试结果显示：

这一表现主要得益于针对印度本土语言数据的高质量训练语料。

Sarvam AI 表示，开源 Sarvam 系列模型的目标之一是推动印度本土 AI 生态的发展。通过开放模型权重和技术能力，可以为开发者和研究机构提供基础模型平台，用于构建本地化 AI 应用。

随着各国持续投入 AI 基础设施建设，本土大模型项目正在成为全球 AI 竞争的重要组成部分。Sarvam 系列模型的发布也反映出印度在大模型研发方面的持续推进。

34 次点击 ∙ 0 人收藏

登录后收藏

0 条回复