腾讯: 补课型(强化 Infra + RL,追效率)
字节: 工程驱动型(高性能系统一体化最强)
阿里: 平台型(云 + 模型 + 商业化闭环)
┌──────────────────────────────┐
│ 应用 / Agent 层 │
│ (Copilot / Bot / Workflow) │
└────────────┬─────────────────┘
│
┌────────────────────────┼────────────────────────┐
│ │ │
┌───────────────┐ ┌───────────────┐ ┌───────────────┐
│ 腾讯混元 │ │ 字节豆包/Seed │ │ 阿里通义 │
└───────┬───────┘ └───────┬───────┘ └───────┬───────┘
│ │ │
────────┼─────────────────────┼─────────────────────┼────────
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│ RL 层 │ │ RL 层 │ │ RL 层 │
│ (重建中)│ │ (成熟) │ │ (稳态) │
└────┬────┘ └────┬────┘ └────┬────┘
│ │ │
────────┼─────────────────────┼─────────────────────┼────────
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│ 推理系统 │ │ 推理系统 │ │ 推理系统 │
│ (追赶) │ │ (极致优化)│ │ (云原生) │
└────┬────┘ └────┬────┘ └────┬────┘
│ │ │
────────┼─────────────────────┼─────────────────────┼────────
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│训练系统 │ │训练系统 │ │训练系统 │
│ (补强) │ │ (业内顶级)│ │ (稳定扩展)│
└────┬────┘ └────┬────┘ └────┬────┘
│ │ │
────────┼─────────────────────┼─────────────────────┼────────
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│资源调度 │ │资源调度 │ │资源调度 │
│ (重构) │ │ (自研深度)│ │ (云融合) │
└─────────┘ └─────────┘ └─────────┘
Data → 分布式调度 → 高效并行(DP/TP/PP)→ 自研通信优化 → Checkpoint → 自动恢复
特点:
👉 核心优势:训练效率 = 行业天花板
OSS数据 → PAI平台 → 分布式训练 → Auto Scaling → 云资源调度
特点:
👉 核心优势:可复制 + 可商业化
数据 → 新训练平台 → 分布式训练 → 优化中
特点:
👉 核心问题:训练效率 vs 字节存在代差
请求 → 调度 → KV cache 优化 → Speculative decoding → Kernel fusion → 输出
关键技术:
👉 特点:把 GPU 榨干
API → 网关 → 推理服务 → Auto scaling → 多租户隔离
关键点:
👉 特点:稳定 > 极限性能
请求 → 推理服务 → KV cache(优化中)→ 输出
改进方向:
👉 当前状态:从“能跑”到“高效跑”过渡
数据 → 奖励模型 → RL训练(veRL)→ 在线更新 → 模型迭代
特点:
👉 优势:RL 已工程化
SFT → RLHF → 对齐优化 → 部分在线学习
特点:
👉 优势:稳定 + 可控
SFT → RL(重建中)→ Agent RL(目标)
变化:
👉 关键点:
腾讯这波重组,本质就是补 RL 基础设施
自研调度系统 → GPU 利用率极高 → 训练/推理统一调度
特点:
云调度(K8s + 自研)→ 多租户 → 弹性扩展
特点:
内部资源 + 新调度体系(重构中)
问题:
能力维度:训练效率 / 推理性能 / RL能力 / 云能力 / 工程体系
字节: ████████░░(工程最强)
阿里: ██████░░░░(平台最强)
腾讯: ████░░░░░░(正在补齐)
👉 系统工程驱动 AI
👉 云平台驱动 AI
👉 从产品公司 → AI 系统公司转型中
字节:已经把“AI Infra”做成核心竞争力
阿里:把“AI Infra”做成云服务能力
腾讯:正在把“AI Infra”变成基础能力