SkyPilot 是一个用于在任何 AI 基础设施上运行、管理和扩展 AI 工作负载的系统。
SkyPilot 为 AI 团队 提供了一个简单的接口,可以在任何基础设施上运行任务。基础设施团队 则获得了一个统一的管理平面,用于管理任何 AI 计算资源——具备高级调度、扩展和编排功能。

:fire: 最新动态 :fire:
- [2025年12月] SkyPilot v0.11 发布:多云资源池、快速托管作业、大规模企业级就绪、可编程性。发布说明
- [2025年12月] SkyPilot 资源池 发布:在跨云或集群的托管预热工作池上运行批量推理和其他作业。博客, 文档
- [2025年12月] 在你的 Kubernetes 或云上,使用 RL 训练 一个能使用 Google 搜索作为工具的智能体:博客, 示例
- [2025年11月] 在你的 Kubernetes 或云上,部署具备推理能力的 Kimi K2 Thinking:示例
- [2025年10月] 在你的 Kubernetes 或云上,使用 SkyRL 进行 LLM 的 RL 训练:示例
- [2025年10月] 训练和部署 Andrej Karpathy 的 nanochat - 100 美元能买到的最好的 ChatGPT:示例
- [2025年10月] 在任何 AI 基础设施上进行大规模 使用 TorchTitan 的 LLM 训练:示例
- [2025年9月] Abridge 的 AI 基础设施扩展 - 使用 SkyPilot 开发速度提升 10 倍:博客
- [2025年9月] 云端 LLM 训练的网络和存储基准测试:博客
- [2025年8月] 在任何基础设施上,通过一条命令部署和微调 OpenAI GPT-OSS 模型 (gpt-oss-120b, gpt-oss-20b):部署 + LoRA 和全参数微调
- [2025年7月] 在任何云上进行分布式 LLM 的 RL 训练 (使用 Verl 的 PPO, GRPO):示例
SkyPilot 对 AI 团队来说简单易用:
- 快速在自有基础设施上启动计算资源
- 环境和任务即代码——简单且可移植
- 轻松的任务管理:排队、运行和自动恢复多个任务
SkyPilot 让 Kubernetes 对 AI 和基础设施团队变得简单:
- 类似 Slurm 的易用性,云原生的健壮性
- 在 K8s 上的本地开发体验:SSH 进入 Pod、同步代码或连接 IDE
- 加速你的集群:组调度、多集群和弹性伸缩
SkyPilot 统一了多个集群、云和硬件:
- 一个接口即可使用预留 GPU、Kubernetes 集群、Slurm 集群或 20+ 云服务商
- GPU、TPU、CPU 的灵活供应,支持自动重试
- 团队部署和资源共享
SkyPilot 降低你的云成本并最大化 GPU 可用性:
* 自动停止:自动清理闲置资源
* Spot 实例支持:节省 3-6 倍成本,支持抢占式实例自动恢复
* 智能调度:自动在最便宜且可用的基础设施上运行
SkyPilot 支持你现有的 GPU、TPU 和 CPU 工作负载,无需更改代码。
使用 pip 安装:
# 选择你需要的云服务商:
pip install -U "skypilot[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"
要获取最新功能和修复,请使用 nightly 版本或从源码安装:
# 选择你需要的云服务商:
pip install "skypilot-nightly[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"
要与你的智能体(Claude Code, Codex 等)直接使用 SkyPilot,请安装 SkyPilot Skill。告诉你的智能体:
Fetch and follow https://github.com/skypilot-org/skypilot/blob/HEAD/agent/INSTALL.md to install the skypilot skill
当前支持的基础设施:Kubernetes, Slurm, AWS, GCP, Azure, OCI, CoreWeave, Nebius, Lambda Cloud, RunPod, Fluidstack, Cudo, Digital Ocean, Paperspace, Cloudflare, Samsung, IBM, Vast.ai, VMware vSphere, Seeweb, Prime Intellect, Shadeform, Verda Cloud, VastData, Crusoe。
你可以在这里找到我们的文档。
- 安装指南
- 快速入门
- CLI 参考
一个 SkyPilot 任务定义了:资源需求、需要同步的数据、安装命令和任务命令。
一旦使用这个统一接口(YAML 或 Python API)编写完成,该任务就可以在任何可用的基础设施(Kubernetes, Slurm, 云等)上启动。这避免了供应商锁定,并允许轻松地将任务迁移到不同的提供商。
将以下内容粘贴到文件 my_task.yaml 中:
resources:
accelerators: A100:8 # 8 个 NVIDIA A100 GPU
num_nodes: 1 # 要启动的虚拟机数量
# 工作目录(可选),包含项目代码库。
# 其内容会被同步到集群上的 ~/sky_workdir/。
workdir: ~/torch_examples
# 在执行任务前要运行的命令。
# 典型用途:pip install -r requirements.txt, git clone 等。
setup: |
cd mnist
pip install -r requirements.txt
# 作为任务运行的命令。
# 典型用途:启动主程序。
run: |
cd mnist
python main.py --epochs 1
通过克隆准备 workdir:
git clone https://github.com/pytorch/examples.git ~/torch_examples
使用 sky launch 启动(注意:此示例需要访问 GPU 实例):
sky launch my_task.yaml
然后 SkyPilot 会为你完成繁重的工作,包括:
1. 在你的集群或云中找到最便宜且可用的基础设施
2. 供应 GPU(Pod 或虚拟机),如果基础设施返回容量错误则自动故障转移
3. 将你的本地 workdir 同步到已供应的集群
4. 通过运行任务的 setup 命令自动安装依赖项
5. 运行任务的 run 命令,并流式传输日志
查看快速入门以开始使用 SkyPilot。
查看SkyPilot 示例,涵盖:开发、训练、部署、LLM 模型、AI 应用和常见框架。
最新的特色示例:
| 任务类型 | 示例 |
|---|---|
| 训练 | Verl, 微调 Llama 4, TorchTitan, PyTorch, DeepSpeed, NeMo, Ray, Unsloth, Jax/TPU |
| 部署 | vLLM, SGLang, Ollama |
| 模型 | DeepSeek-R1, Llama 4, Llama 3, CodeLlama, Qwen, Kimi-K2, Kimi-K2-Thinking, Mixtral |
| AI 应用 | RAG, 向量数据库 (ChromaDB, CLIP) |
| 常见框架 | Airflow, Jupyter, marimo |
源文件可以在 llm/ 和 examples/ 目录中找到。
要了解更多信息,请参阅 SkyPilot 概述、SkyPilot 文档 和 SkyPilot 博客。
SkyPilot 采用者:用户评价与案例研究
合作伙伴与集成:社区亮点
关注更新:
- Slack
- X / Twitter
- LinkedIn
- SkyPilot 博客 (介绍性博客文章)
阅读相关研究:
- SkyPilot 论文 和 演讲 (NSDI 2023)
- Sky Computing 白皮书
- Sky Computing 愿景论文 (HotOS 2021)
- SkyServe:跨区域和云的 AI 服务部署 (EuroSys 2025)
- 托管作业 Spot 实例策略 (NSDI 2024)
SkyPilot 最初由 UC Berkeley 的 Sky Computing Lab 发起,现已获得许多行业贡献者。要了解该项目的起源和愿景,请参阅 概念:Sky Computing。
我们很高兴听到您的反馈:
* 对于问题和功能请求,请提交 GitHub Issue。
* 对于问题,请使用 GitHub Discussions。
对于一般性讨论,请加入我们的 SkyPilot Slack。
我们欢迎对该项目的所有贡献!请参阅 CONTRIBUTING 了解如何参与。