Colossal-AI

[![logo](https://raw.githubusercontent.com/hpcaitech/public_assets/main/colossalai/img/colossal-ai_logo_vertical.png)](https://www.colossalai.org/) Colossal-AI：让大型 AI 模型更经济、更快速、更易用

论文 | 文档 | 示例 | 论坛 | GPU 云体验平台 | 博客

[![GitHub Repo stars](https://img.shields.io/github/stars/hpcaitech/ColossalAI?style=social)](https://github.com/hpcaitech/ColossalAI/stargazers) [![Build](https://github.com/hpcaitech/ColossalAI/actions/workflows/build_on_schedule.yml/badge.svg)](https://github.com/hpcaitech/ColossalAI/actions/workflows/build_on_schedule.yml) [![Documentation](https://readthedocs.org/projects/colossalai/badge/?version=latest)](https://colossalai.readthedocs.io/en/latest/?badge=latest) [![CodeFactor](https://www.codefactor.io/repository/github/hpcaitech/colossalai/badge)](https://www.codefactor.io/repository/github/hpcaitech/colossalai) [![HuggingFace badge](https://img.shields.io/badge/%F0%9F%A4%97HuggingFace-加入-yellow)](https://huggingface.co/hpcai-tech) [![slack badge](https://img.shields.io/badge/Slack-加入-blueviolet?logo=slack&)](https://github.com/hpcaitech/public_assets/tree/main/colossalai/contact/slack) [![WeChat badge](https://img.shields.io/badge/微信-加入-green?logo=wechat&)](https://raw.githubusercontent.com/hpcaitech/public_assets/main/colossalai/img/WeChat.png) | [English](README.md) | [中文](docs/README-zh-Hans.md) |

即刻在企业级 GPU 上运行 Colossal-AI

无需配置。在 HPC-AI 云平台 上访问一个功能强大、预配置好的 Colossal-AI 环境。

一键训练模型并扩展您的 AI 工作负载！

NVIDIA Blackwell B200s：体验下一代 AI 性能（查看基准测试）。现已在云端提供，起价 2.47 美元/小时。
高性价比 H200 集群：按需租用，获得顶级性能，起价仅 1.99 美元/小时。

立即开始并领取免费额度 →

Colossal-AI 基准测试

为了了解这些性能提升如何转化为实际应用，我们使用 Colossal-AI 在类 Llama 模型上进行了大语言模型训练基准测试。测试分别在 8 卡和 16 卡配置下对 7B 和 70B 模型进行。

GPU	GPU 数量	模型大小	并行策略	每个数据并行的批次大小	序列长度	吞吐量	TFLOPS/GPU	峰值内存(MiB)
H200	8	7B	zero2(dp8)	36	4096	17.13 样本/秒	534.18	119040.02
H200	16	70B	zero2	48	4096	3.27 样本/秒	469.1	150032.23
B200	8	7B	zero1(dp2)+tp2+pp4	128	4096	25.83 样本/秒	805.69	100119.77
H200	16	70B	zero1(dp2)+tp2+pp4	128	4096	5.66 样本/秒	811.79	100072.02

Colossal-AI 基准测试的结果提供了最实用的洞察。对于 8 卡上的 7B 模型，B200 实现了 50% 的吞吐量提升，并且每个 GPU 的 TFLOPS 显著增加。对于 16 卡上的 70B 模型，B200 再次展现出明显优势，吞吐量和每个 GPU 的 TFLOPS 均提升了 70% 以上。这些数字表明，B200 的性能提升直接转化为大规模模型更快的训练时间。