SkyPilot — 在多云环境中训练与部署 AI 任务

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

SkyPilot

在任何基础设施上运行 AI

#### [🌟 **SkyPilot 演示** 🌟: 点击观看 1 分钟演示](https://demo.skypilot.co/dashboard/)

SkyPilot 是一个用于在任何 AI 基础设施上运行、管理和扩展 AI 工作负载的系统。

SkyPilot 为 AI 团队 提供了一个简单的接口，可以在任何基础设施上运行任务。基础设施团队 则获得了一个统一的管理平面，用于管理任何 AI 计算资源——具备高级调度、扩展和编排功能。

SkyPilot Abstractions

:fire: 最新动态 :fire:
- [2025年12月] SkyPilot v0.11 发布：多云资源池、快速托管作业、大规模企业级就绪、可编程性。发布说明
- [2025年12月] SkyPilot 资源池 发布：在跨云或集群的托管预热工作池上运行批量推理和其他作业。博客, 文档
- [2025年12月] 在你的 Kubernetes 或云上，使用 RL 训练 一个能使用 Google 搜索作为工具的智能体：博客, 示例
- [2025年11月] 在你的 Kubernetes 或云上，部署具备推理能力的 Kimi K2 Thinking：示例
- [2025年10月] 在你的 Kubernetes 或云上，使用 SkyRL 进行 LLM 的 RL 训练：示例
- [2025年10月] 训练和部署 Andrej Karpathy 的 nanochat - 100 美元能买到的最好的 ChatGPT：示例
- [2025年10月] 在任何 AI 基础设施上进行大规模 使用 TorchTitan 的 LLM 训练：示例
- [2025年9月] Abridge 的 AI 基础设施扩展 - 使用 SkyPilot 开发速度提升 10 倍：博客
- [2025年9月] 云端 LLM 训练的网络和存储基准测试：博客
- [2025年8月] 在任何基础设施上，通过一条命令部署和微调 OpenAI GPT-OSS 模型 (gpt-oss-120b, gpt-oss-20b)：部署 + LoRA 和全参数微调
- [2025年7月] 在任何云上进行分布式 LLM 的 RL 训练 (使用 Verl 的 PPO, GRPO)：示例

概述

SkyPilot 对 AI 团队来说简单易用：
- 快速在自有基础设施上启动计算资源
- 环境和任务即代码——简单且可移植
- 轻松的任务管理：排队、运行和自动恢复多个任务

SkyPilot 让 Kubernetes 对 AI 和基础设施团队变得简单：
- 类似 Slurm 的易用性，云原生的健壮性
- 在 K8s 上的本地开发体验：SSH 进入 Pod、同步代码或连接 IDE
- 加速你的集群：组调度、多集群和弹性伸缩

SkyPilot 统一了多个集群、云和硬件：
- 一个接口即可使用预留 GPU、Kubernetes 集群、Slurm 集群或 20+ 云服务商
- GPU、TPU、CPU 的灵活供应，支持自动重试
- 团队部署和资源共享

SkyPilot 降低你的云成本并最大化 GPU 可用性：
* 自动停止：自动清理闲置资源
* Spot 实例支持：节省 3-6 倍成本，支持抢占式实例自动恢复
* 智能调度：自动在最便宜且可用的基础设施上运行

SkyPilot 支持你现有的 GPU、TPU 和 CPU 工作负载，无需更改代码。

使用 pip 安装：

# 选择你需要的云服务商：
pip install -U "skypilot[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"

要获取最新功能和修复，请使用 nightly 版本或从源码安装：

# 选择你需要的云服务商：
pip install "skypilot-nightly[kubernetes,aws,gcp,azure,oci,nebius,lambda,runpod,fluidstack,paperspace,cudo,ibm,scp,seeweb,shadeform,verda]"

要与你的智能体（Claude Code, Codex 等）直接使用 SkyPilot，请安装 SkyPilot Skill。告诉你的智能体：

Fetch and follow https://github.com/skypilot-org/skypilot/blob/HEAD/agent/INSTALL.md to install the skypilot skill

SkyPilot

当前支持的基础设施：Kubernetes, Slurm, AWS, GCP, Azure, OCI, CoreWeave, Nebius, Lambda Cloud, RunPod, Fluidstack, Cudo, Digital Ocean, Paperspace, Cloudflare, Samsung, IBM, Vast.ai, VMware vSphere, Seeweb, Prime Intellect, Shadeform, Verda Cloud, VastData, Crusoe。

SkyPilot

快速开始

你可以在这里找到我们的文档。
- 安装指南
- 快速入门
- CLI 参考

一分钟了解 SkyPilot

一个 SkyPilot 任务定义了：资源需求、需要同步的数据、安装命令和任务命令。

一旦使用这个统一接口（YAML 或 Python API）编写完成，该任务就可以在任何可用的基础设施（Kubernetes, Slurm, 云等）上启动。这避免了供应商锁定，并允许轻松地将任务迁移到不同的提供商。

将以下内容粘贴到文件 my_task.yaml 中：

resources:
  accelerators: A100:8  # 8 个 NVIDIA A100 GPU

num_nodes: 1  # 要启动的虚拟机数量

# 工作目录（可选），包含项目代码库。
# 其内容会被同步到集群上的 ~/sky_workdir/。
workdir: ~/torch_examples

# 在执行任务前要运行的命令。
# 典型用途：pip install -r requirements.txt, git clone 等。
setup: |
  cd mnist
  pip install -r requirements.txt

# 作为任务运行的命令。
# 典型用途：启动主程序。
run: |
  cd mnist
  python main.py --epochs 1

通过克隆准备 workdir：

git clone https://github.com/pytorch/examples.git ~/torch_examples

使用 sky launch 启动（注意：此示例需要访问 GPU 实例）：

sky launch my_task.yaml

然后 SkyPilot 会为你完成繁重的工作，包括：
1. 在你的集群或云中找到最便宜且可用的基础设施
2. 供应 GPU（Pod 或虚拟机），如果基础设施返回容量错误则自动故障转移
3. 将你的本地 workdir 同步到已供应的集群
4. 通过运行任务的 setup 命令自动安装依赖项
5. 运行任务的 run 命令，并流式传输日志

查看快速入门以开始使用 SkyPilot。

可运行示例

查看SkyPilot 示例，涵盖：开发、训练、部署、LLM 模型、AI 应用和常见框架。

任务类型	示例
训练	Verl, 微调 Llama 4, TorchTitan, PyTorch, DeepSpeed, NeMo, Ray, Unsloth, Jax/TPU
部署	vLLM, SGLang, Ollama
模型	DeepSeek-R1, Llama 4, Llama 3, CodeLlama, Qwen, Kimi-K2, Kimi-K2-Thinking, Mixtral
AI 应用	RAG, 向量数据库 (ChromaDB, CLIP)
常见框架	Airflow, Jupyter, marimo

问题与反馈

我们很高兴听到您的反馈：
* 对于问题和功能请求，请提交 GitHub Issue。
* 对于问题，请使用 GitHub Discussions。

对于一般性讨论，请加入我们的 SkyPilot Slack。

贡献

我们欢迎对该项目的所有贡献！请参阅 CONTRIBUTING 了解如何参与。

项目地址：https://github.com/skypilot-org/skypilot

21 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

SkyPilot — 在多云环境中训练与部署 AI 任务

在任何基础设施上运行 AI

概述

快速开始

一分钟了解 SkyPilot

可运行示例

更多信息

问题与反馈

贡献