OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  wandb-monitor:监控并分析 Weights & Biases 模型的训练运行情况

wandb-monitor:监控并分析 Weights & Biases 模型的训练运行情况

 
  cursor ·  2026-02-16 00:11:55 · 3 次点击  · 0 条评论  

名称: wandb
描述: 监控和分析 Weights & Biases 训练任务。适用于检查训练状态、检测失败、分析损失曲线、对比任务或监控实验。触发词包括:"wandb"、"training runs"、"how's training"、"did my run finish"、"any failures"、"check experiments"、"loss curve"、"gradient norm"、"compare runs"。


Weights & Biases

监控、分析和对比 W&B 训练任务。

设置

wandb login
# 或者在环境中设置 WANDB_API_KEY

脚本工具

任务特征分析(完整健康度检查)

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/characterize_run.py ENTITY/PROJECT/RUN_ID

分析内容:
- 损失曲线趋势(起始值 → 当前值、百分比变化、方向)
- 梯度范数健康度(检测梯度爆炸/消失)
- 评估指标(如果存在)
- 停滞检测(心跳时间)
- 进度与预计完成时间
- 配置要点
- 整体健康度结论

选项:--json 输出机器可读格式。

监控所有运行中的任务

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/watch_runs.py ENTITY [--projects p1,p2]

快速汇总所有运行中任务的健康状态,以及近期失败/完成的任务。适合用于每日简报。

选项:
- --projects p1,p2 — 指定检查的项目
- --all-projects — 检查所有项目
- --hours N — 回溯检查已完成任务的小时数(默认:24)
- --json — 输出机器可读格式

对比两个任务

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/compare_runs.py ENTITY/PROJECT/RUN_A ENTITY/PROJECT/RUN_B

并排对比内容:
- 配置差异(高亮重要参数)
- 相同步数的损失曲线
- 梯度范数对比
- 评估指标
- 性能(tokens/秒,步数/小时)
- 优胜判定

Python API 快速参考

import wandb
api = wandb.Api()

# 获取任务
runs = api.runs("entity/project", {"state": "running"})

# 任务属性
run.state      # 状态:running | finished | failed | crashed | canceled
run.name       # 显示名称
run.id         # 唯一标识符
run.summary    # 最终/当前指标
run.config     # 超参数
run.heartbeat_at # 用于停滞检测的心跳时间

# 获取历史记录
history = list(run.scan_history(keys=["train/loss", "train/grad_norm"]))

指标键名变体

脚本会自动处理以下变体:
- 损失:train/loss, loss, train_loss, training_loss
- 梯度:train/grad_norm, grad_norm, gradient_norm
- 步数:train/global_step, global_step, step, _step
- 评估:eval/loss, eval_loss, eval/accuracy, eval_acc

健康度阈值

  • 梯度 > 10: 梯度爆炸(严重)
  • 梯度 > 5: 梯度波动剧烈(警告)
  • 梯度 < 0.0001: 梯度消失(警告)
  • 心跳 > 30分钟: 任务停滞(严重)
  • 心跳 > 10分钟: 任务缓慢(警告)

集成说明

  • 用于每日简报:使用 watch_runs.py --json 并解析输出。
  • 用于特定任务的详细分析:使用 characterize_run.py
  • 用于 A/B 测试或超参数对比:使用 compare_runs.py
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor