OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  SkyPilot — 在多云环境中训练与部署 AI 任务

SkyPilot — 在多云环境中训练与部署 AI 任务

 
  cube ·  2026-02-16 09:11:17 · 5 次点击  · 0 条评论  

SkyPilot

Documentation GitHub Release Join Slack Downloads

在任何基础设施上运行 AI

#### [🌟 **SkyPilot 演示** 🌟: 点击观看 1 分钟演示](https://demo.skypilot.co/dashboard/)

SkyPilot 是一个用于在任何 AI 基础设施上运行、管理和扩展 AI 工作负载的系统。

SkyPilot 为 AI 团队 提供了一个简单的接口,可以在任何基础设施上运行任务。基础设施团队 则获得了一个统一的管理平面,用于管理任何 AI 计算资源——具备高级调度、扩展和编排功能。



SkyPilot Abstractions


:fire: 最新动态 :fire:
- [2025年12月] SkyPilot v0.11 发布:多云资源池、快速托管作业、大规模企业级就绪、可编程性。发布说明
- [2025年12月] SkyPilot 资源池 发布:在跨云或集群的托管预热工作池上运行批量推理和其他作业。博客, 文档
- [2025年12月] 在你的 Kubernetes 或云上,使用 RL 训练 一个能使用 Google 搜索作为工具的智能体博客, 示例
- [2025年11月] 在你的 Kubernetes 或云上,部署具备推理能力的 Kimi K2 Thinking示例
- [2025年10月] 在你的 Kubernetes 或云上,使用 SkyRL 进行 LLM 的 RL 训练示例
- [2025年10月] 训练和部署 Andrej Karpathy 的 nanochat - 100 美元能买到的最好的 ChatGPT:示例
- [2025年10月] 在任何 AI 基础设施上进行大规模 使用 TorchTitan 的 LLM 训练示例
- [2025年9月] Abridge 的 AI 基础设施扩展 - 使用 SkyPilot 开发速度提升 10 倍博客
- [2025年9月] 云端 LLM 训练的网络和存储基准测试:博客
- [2025年8月] 在任何基础设施上,通过一条命令部署和微调 OpenAI GPT-OSS 模型 (gpt-oss-120b, gpt-oss-20b):部署 + LoRA 和全参数微调
- [2025年7月] 在任何云上进行分布式 LLM 的 RL 训练 (使用 Verl 的 PPO, GRPO):示例

概述

SkyPilot 对 AI 团队来说简单易用
- 快速在自有基础设施上启动计算资源
- 环境和任务即代码——简单且可移植
- 轻松的任务管理:排队、运行和自动恢复多个任务

SkyPilot 让 Kubernetes 对 AI 和基础设施团队变得简单
- 类似 Slurm 的易用性,云原生的健壮性
- 在 K8s 上的本地开发体验:SSH 进入 Pod、同步代码或连接 IDE
- 加速你的集群:组调度、多集群和弹性伸缩

SkyPilot 统一了多个集群、云和硬件
- 一个接口即可使用预留 GPU、Kubernetes 集群、Slurm 集群或 20+ 云服务商
- GPU、TPU、CPU 的灵活供应,支持自动重试
- 团队部署和资源共享

SkyPilot 降低你的云成本并最大化 GPU 可用性
* 自动停止:自动清理闲置资源
* Spot 实例支持:节省 3-6 倍成本,支持抢占式实例自动恢复
* 智能调度:自动在最便宜且可用的基础设施上运行

SkyPilot 支持你现有的 GPU、TPU 和 CPU 工作负载,无需更改代码。

使用 pip 安装:

# 选择你需要的云服务商:
pip install -U "skypilot[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"

要获取最新功能和修复,请使用 nightly 版本或从源码安装

# 选择你需要的云服务商:
pip install "skypilot-nightly[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"

要与你的智能体(Claude Code, Codex 等)直接使用 SkyPilot,请安装 SkyPilot Skill。告诉你的智能体:

Fetch and follow https://github.com/skypilot-org/skypilot/blob/HEAD/agent/INSTALL.md to install the skypilot skill

SkyPilot

当前支持的基础设施:Kubernetes, Slurm, AWS, GCP, Azure, OCI, CoreWeave, Nebius, Lambda Cloud, RunPod, Fluidstack, Cudo, Digital Ocean, Paperspace, Cloudflare, Samsung, IBM, Vast.ai, VMware vSphere, Seeweb, Prime Intellect, Shadeform, Verda Cloud, VastData, Crusoe。

SkyPilot

快速开始

你可以在这里找到我们的文档。
- 安装指南
- 快速入门
- CLI 参考

一分钟了解 SkyPilot

一个 SkyPilot 任务定义了:资源需求、需要同步的数据、安装命令和任务命令。

一旦使用这个统一接口(YAML 或 Python API)编写完成,该任务就可以在任何可用的基础设施(Kubernetes, Slurm, 云等)上启动。这避免了供应商锁定,并允许轻松地将任务迁移到不同的提供商。

将以下内容粘贴到文件 my_task.yaml 中:

resources:
  accelerators: A100:8  # 8 个 NVIDIA A100 GPU

num_nodes: 1  # 要启动的虚拟机数量

# 工作目录(可选),包含项目代码库。
# 其内容会被同步到集群上的 ~/sky_workdir/。
workdir: ~/torch_examples

# 在执行任务前要运行的命令。
# 典型用途:pip install -r requirements.txt, git clone 等。
setup: |
  cd mnist
  pip install -r requirements.txt

# 作为任务运行的命令。
# 典型用途:启动主程序。
run: |
  cd mnist
  python main.py --epochs 1

通过克隆准备 workdir:

git clone https://github.com/pytorch/examples.git ~/torch_examples

使用 sky launch 启动(注意:此示例需要访问 GPU 实例):

sky launch my_task.yaml

然后 SkyPilot 会为你完成繁重的工作,包括:
1. 在你的集群或云中找到最便宜且可用的基础设施
2. 供应 GPU(Pod 或虚拟机),如果基础设施返回容量错误则自动故障转移
3. 将你的本地 workdir 同步到已供应的集群
4. 通过运行任务的 setup 命令自动安装依赖项
5. 运行任务的 run 命令,并流式传输日志

查看快速入门以开始使用 SkyPilot。

可运行示例

查看SkyPilot 示例,涵盖:开发、训练、部署、LLM 模型、AI 应用和常见框架。

最新的特色示例:

任务类型 示例
训练 Verl, 微调 Llama 4, TorchTitan, PyTorch, DeepSpeed, NeMo, Ray, Unsloth, Jax/TPU
部署 vLLM, SGLang, Ollama
模型 DeepSeek-R1, Llama 4, Llama 3, CodeLlama, Qwen, Kimi-K2, Kimi-K2-Thinking, Mixtral
AI 应用 RAG, 向量数据库 (ChromaDB, CLIP)
常见框架 Airflow, Jupyter, marimo

源文件可以在 llm/examples/ 目录中找到。

更多信息

要了解更多信息,请参阅 SkyPilot 概述SkyPilot 文档SkyPilot 博客

SkyPilot 采用者:用户评价与案例研究

合作伙伴与集成:社区亮点

关注更新:
- Slack
- X / Twitter
- LinkedIn
- SkyPilot 博客 (介绍性博客文章)

阅读相关研究:
- SkyPilot 论文演讲 (NSDI 2023)
- Sky Computing 白皮书
- Sky Computing 愿景论文 (HotOS 2021)
- SkyServe:跨区域和云的 AI 服务部署 (EuroSys 2025)
- 托管作业 Spot 实例策略 (NSDI 2024)

SkyPilot 最初由 UC Berkeley 的 Sky Computing Lab 发起,现已获得许多行业贡献者。要了解该项目的起源和愿景,请参阅 概念:Sky Computing

问题与反馈

我们很高兴听到您的反馈:
* 对于问题和功能请求,请提交 GitHub Issue
* 对于问题,请使用 GitHub Discussions

对于一般性讨论,请加入我们的 SkyPilot Slack

贡献

我们欢迎对该项目的所有贡献!请参阅 CONTRIBUTING 了解如何参与。

5 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor