OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  ColossalAI — 超大模型训练框架

ColossalAI — 超大模型训练框架

 
  merge ·  2026-02-28 00:56:11 · 2 次点击  · 0 条评论  

Colossal-AI

[![logo](https://raw.githubusercontent.com/hpcaitech/public_assets/main/colossalai/img/colossal-ai_logo_vertical.png)](https://www.colossalai.org/) Colossal-AI:让大型 AI 模型更经济、更快速、更易用

论文 | 文档 | 示例 | 论坛 | GPU 云体验平台 | 博客

[![GitHub Repo stars](https://img.shields.io/github/stars/hpcaitech/ColossalAI?style=social)](https://github.com/hpcaitech/ColossalAI/stargazers) [![Build](https://github.com/hpcaitech/ColossalAI/actions/workflows/build_on_schedule.yml/badge.svg)](https://github.com/hpcaitech/ColossalAI/actions/workflows/build_on_schedule.yml) [![Documentation](https://readthedocs.org/projects/colossalai/badge/?version=latest)](https://colossalai.readthedocs.io/en/latest/?badge=latest) [![CodeFactor](https://www.codefactor.io/repository/github/hpcaitech/colossalai/badge)](https://www.codefactor.io/repository/github/hpcaitech/colossalai) [![HuggingFace badge](https://img.shields.io/badge/%F0%9F%A4%97HuggingFace-加入-yellow)](https://huggingface.co/hpcai-tech) [![slack badge](https://img.shields.io/badge/Slack-加入-blueviolet?logo=slack&)](https://github.com/hpcaitech/public_assets/tree/main/colossalai/contact/slack) [![WeChat badge](https://img.shields.io/badge/微信-加入-green?logo=wechat&)](https://raw.githubusercontent.com/hpcaitech/public_assets/main/colossalai/img/WeChat.png) | [English](README.md) | [中文](docs/README-zh-Hans.md) |

即刻在企业级 GPU 上运行 Colossal-AI

无需配置。在 HPC-AI 云平台 上访问一个功能强大、预配置好的 Colossal-AI 环境。

一键训练模型并扩展您的 AI 工作负载!

  • NVIDIA Blackwell B200s:体验下一代 AI 性能(查看基准测试)。现已在云端提供,起价 2.47 美元/小时
  • 高性价比 H200 集群:按需租用,获得顶级性能,起价仅 1.99 美元/小时

立即开始并领取免费额度 →

Colossal-AI 基准测试

为了了解这些性能提升如何转化为实际应用,我们使用 Colossal-AI 在类 Llama 模型上进行了大语言模型训练基准测试。测试分别在 8 卡和 16 卡配置下对 7B 和 70B 模型进行。

GPU GPU 数量 模型大小 并行策略 每个数据并行的批次大小 序列长度 吞吐量 TFLOPS/GPU 峰值内存(MiB)
H200 8 7B zero2(dp8) 36 4096 17.13 样本/秒 534.18 119040.02
H200 16 70B zero2 48 4096 3.27 样本/秒 469.1 150032.23
B200 8 7B zero1(dp2)+tp2+pp4 128 4096 25.83 样本/秒 805.69 100119.77
H200 16 70B zero1(dp2)+tp2+pp4 128 4096 5.66 样本/秒 811.79 100072.02

Colossal-AI 基准测试的结果提供了最实用的洞察。对于 8 卡上的 7B 模型,B200 实现了 50% 的吞吐量提升,并且每个 GPU 的 TFLOPS 显著增加。对于 16 卡上的 70B 模型,B200 再次展现出明显优势,吞吐量和每个 GPU 的 TFLOPS 均提升了 70% 以上。这些数字表明,B200 的性能提升直接转化为大规模模型更快的训练时间。

最新动态

目录

为什么选择 Colossal-AI

James Demmel 教授(加州大学伯克利分校):Colossal-AI 使 AI 模型训练高效、简单且可扩展。

(返回顶部)

特性

Colossal-AI 为您提供了一系列并行组件。我们的目标是让您编写分布式深度学习模型就像在笔记本电脑上编写模型一样简单。我们提供用户友好的工具,只需几行代码即可启动分布式训练和推理。

(返回顶部)

Colossal-AI 在实际应用中的表现

Open-Sora

Open-Sora:揭秘类 Sora 视频生成模型的完整模型参数、训练细节与一切
[代码]
[博客]
[模型权重]
[演示]
[GPU 云体验平台]
[OpenSora 镜像]

(返回顶部)

Colossal-LLaMA-2

[GPU 云体验平台]
[LLaMA3 镜像]

模型 骨干网络 消耗的 Token 数 MMLU (5-shot) CMMLU (5-shot) AGIEval (5-shot) GAOKAO (0-shot) CEval (5-shot)
Baichuan-7B - 1.2T 42.32 (42.30) 44.53 (44.02) 38.72 36.74
2 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor