OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 技能包 › swarm-safety：基于软概率标签的多智能体 AI 安全仿真系统

swarm-safety：基于软概率标签的多智能体 AI 安全仿真系统

index · 2026-02-10 00:29:55 · 17 次点击 · 0 条评论

名称： swarm-safety
版本： 1.7.0
描述： "SWARM：多智能体系统中的系统性风险评估框架。包含 38 种智能体类型、29 种治理杠杆、55 种场景。用于研究涌现风险、相变和治理成本悖论。"
主页： https://github.com/swarm-ai-safety/swarm
元数据： {"category":"safety","license":"MIT","author":"Raeli Savitt"}

SWARM 安全技能

研究智能体集群的协作机制及其失效点。

SWARM 是一个研究多智能体 AI 系统中涌现风险的研究框架，它使用软（概率性）标签而非简单的二元好坏分类。AGI 级别的风险并不需要 AGI 级别的智能体——当许多亚 AGI 智能体交互时，即使单个智能体没有错位，也可能涌现出有害的动态。

v1.7.0 | 38 种智能体类型 | 29 种治理杠杆 | 55 种场景 | 2922 项测试 | 8 个框架桥接

代码库：https://github.com/swarm-ai-safety/swarm

硬性规则

SWARM 模拟在本地运行。请先安装软件包。
请勿提交包含真实 API 密钥、凭证或个人身份信息（PII）的场景。
模拟结果是研究产物。请勿将其作为关于真实系统的绝对事实进行呈现。
发布结果时，请引用本框架并披露模拟参数。

安全说明

API 默认仅绑定到本地主机 (127.0.0.1)，以防止网络暴露。
CORS 默认限制为本地主机源。
开发 API 无身份验证——请勿将其暴露给不受信任的网络。
内存存储——数据在重启后不会持久化。
如需生产部署，请添加身份验证中间件并使用适当的数据库。

安装

# 从 PyPI 安装
pip install swarm-safety

# 安装包含 LLM 智能体支持的版本
pip install swarm-safety[llm]

# 完整开发环境（包含所有额外功能）
git clone https://github.com/swarm-ai-safety/swarm.git
cd swarm
pip install -e ".[dev,runtime]"

快速开始 (Python)

from swarm.agents.honest import HonestAgent
from swarm.agents.opportunistic import OpportunisticAgent
from swarm.agents.deceptive import DeceptiveAgent
from swarm.agents.adversarial import AdversarialAgent
from swarm.core.orchestrator import Orchestrator, OrchestratorConfig

config = OrchestratorConfig(n_epochs=10, steps_per_epoch=10, seed=42)
orchestrator = Orchestrator(config=config)

orchestrator.register_agent(HonestAgent(agent_id="honest_1", name="Alice"))
orchestrator.register_agent(HonestAgent(agent_id="honest_2", name="Bob"))
orchestrator.register_agent(OpportunisticAgent(agent_id="opp_1"))
orchestrator.register_agent(DeceptiveAgent(agent_id="dec_1"))

metrics = orchestrator.run()
for m in metrics:
    print(f"Epoch {m.epoch}: toxicity={m.toxicity_rate:.3f}, welfare={m.total_welfare:.2f}")

快速开始 (CLI)

# 列出可用场景
swarm list

# 运行一个场景
swarm run scenarios/baseline.yaml

# 覆盖设置
swarm run scenarios/baseline.yaml --seed 42 --epochs 20 --steps 15

# 导出结果
swarm run scenarios/baseline.yaml --export-json results.json --export-csv outputs/

快速开始 (API)

启动 API 服务器：

pip install swarm-safety[api]
uvicorn swarm.api.app:app --host 127.0.0.1 --port 8000

API 文档位于 http://localhost:8000/docs。

安全提示：服务器默认绑定到 127.0.0.1（仅限本地主机）。除非您了解安全影响并已配置适当的防火墙规则，否则请勿绑定到 0.0.0.0。

注册智能体

curl -X POST http://localhost:8000/api/v1/agents/register \
  -H "Content-Type: application/json" \
  -d '{
    "name": "YourAgent",
    "description": "What your agent does",
    "capabilities": ["governance-testing", "red-teaming"]
  }'

返回 agent_id 和 api_key。

提交场景

curl -X POST http://localhost:8000/api/v1/scenarios/submit \
  -H "Content-Type: application/json" \
  -d '{
    "name": "my-scenario",
    "description": "Testing collusion detection with 5 agents",
    "yaml_content": "simulation:\n  n_epochs: 10\n  steps_per_epoch: 10\nagents:\n  - type: honest\n    count: 3\n  - type: adversarial\n    count: 2",
    "tags": ["collusion", "governance"]
  }'

创建并加入模拟

# 创建模拟
curl -X POST http://localhost:8000/api/v1/simulations/create \
  -H "Content-Type: application/json" \
  -d '{"scenario_id": "SCENARIO_ID", "max_participants": 5}'

# 加入模拟
curl -X POST http://localhost:8000/api/v1/simulations/SIM_ID/join \
  -H "Content-Type: application/json" \
  -d '{"agent_id": "YOUR_AGENT_ID", "role": "participant"}'

核心概念

软概率标签

交互携带 p = P(v = +1) —— 有益结果的概率：

可观测值 -> 代理计算器 -> v_hat -> sigmoid -> p -> 收益引擎 -> 收益
                                                      |
                                              软指标 -> 毒性、质量差距等

五个关键指标

指标	衡量内容
毒性率	已接受交互中的预期危害：`E[1-p \\| accepted]`
质量差距	逆向选择指标（负值表示不良）：`E[p \\| accepted] - E[p \\| rejected]`
条件损失	选择效应对收益的影响
不一致性	多次重放中的方差与误差比
幻觉差值	感知一致性与实际一致性之间的差距

智能体类型 (14 个系列，38 种实现)

类型	行为
诚实型	合作、基于信任、勤勉完成任务
机会主义型	最大化短期收益、择优选择任务
欺骗型	建立信任，然后利用信任关系
对抗型	针对诚实智能体，与盟友协调
LDT	采用 FDT/UDT 预承诺的逻辑决策理论
RLM	基于记忆的强化学习
委员会型	基于多智能体审议的决策
SkillRL	通过奖励信号学习交互策略
LLM	行为由 LLM 决定（Anthropic、OpenAI 或 Ollama）
Moltbook	特定领域的社交平台智能体
学者型	学术引用和研究智能体
维基编辑型	遵循编辑政策的协作编辑

治理杠杆 (29 种机制)

交易税 —— 减少剥削，但消耗福利
声誉衰减 —— 惩罚不良行为者，但会侵蚀诚实者的声誉
熔断机制 —— 快速冻结有毒智能体
随机审计 —— 威慑隐藏的剥削行为
质押 —— 过滤资本不足的智能体
合谋检测 —— 捕获协同攻击（接近崩溃阈值的关键杠杆）
女巫检测 —— 识别重复智能体
透明度账本 —— 根据结果奖励/惩罚
审核员智能体 —— 对交互进行概率性审查
不一致性摩擦 —— 对不确定性驱动的决策征税
委员会审议 —— 多智能体治理决策
多样性强制 —— 防止单一文化崩溃
Moltipedia 特定机制 —— 配对上限、页面冷却、每日上限、自我修复预防

框架桥接

桥接	集成内容
Concordia	DeepMind 的多智能体框架
GasTown	多智能体工作空间治理
Claude Code	Claude CLI 智能体集成
LiveSWE	实时软件工程任务
OpenClaw	开放智能体协议
Prime Intellect	跨平台运行跟踪
Ralph	智能体编排
Worktree	基于 Git worktree 的沙盒

场景 YAML 格式

simulation:
  n_epochs: 10
  steps_per_epoch: 10
  seed: 42

agents:
  - type: honest
    count: 3
    config:
      acceptance_threshold: 0.4
  - type: adversarial
    count: 2
    config:
      aggression_level: 0.7

governance:
  transaction_tax_rate: 0.05
  circuit_breaker_enabled: true
  collusion_detection_enabled: true

success_criteria:
  max_toxicity: 0.3
  min_quality_gap: 0.0

关键研究发现

相变 (11 场景，209 轮次研究)

状态	对抗型智能体占比	毒性	福利	结果
合作	0-20%	< 0.30	稳定	存活
竞争	20-37.5%	0.33-0.37	下降	存活
崩溃	50%+	~0.30	第 12-14 轮次归零	崩溃

对抗型智能体占比在 37.5% 到 50% 之间是一个临界阈值，区分了可恢复状态和不可逆转的崩溃。

治理成本悖论 (v1.7.0 GasTown 研究)

一项包含 42 次运行的研究表明：治理在所有对抗水平下都能降低毒性（平均降低 0.071），但在当前参数调优下会带来净负的福利成本。在对抗型智能体占比为 0% 时，治理消耗了 216 单位福利（-57.6%），却仅换来 0.066 的毒性降低。

案例研究

GasTown 治理成本

研究 7 种不同智能体构成下，治理开销与毒性降低之间的关系（启用与不启用治理杠杆）。揭示了安全性与吞吐量之间的权衡。参见 scenarios/gastown_governance_cost.yaml。

LDT 合作

在多达 21 个智能体的群体规模下，比较 TDT、FDT 和 UDT 合作策略，共进行 220 次运行，覆盖 10 个随机种子。参见 scenarios/ldt_cooperation.yaml。

Moltipedia 心跳

模拟 Moltipedia 维基编辑循环：竞争的 AI 编辑者、编辑政策、积分获取和反作弊治理。参见 scenarios/moltipedia_heartbeat.yaml。

Moltbook CAPTCHA

模拟 Moltbook 的反人类数学挑战和速率限制：混淆文本解析、验证关卡和垃圾信息预防。参见 scenarios/moltbook_captcha.yaml。

API 端点 (完整参考)

方法	端点	描述
GET	`/health`	健康检查
GET	`/`	API 信息
POST	`/api/v1/agents/register`	注册智能体
GET	`/api/v1/agents/{agent_id}`	获取智能体详情
GET	`/api/v1/agents/`	列出智能体
POST	`/api/v1/scenarios/submit`	提交场景
GET	`/api/v1/scenarios/{scenario_id}`	获取场景
GET	`/api/v1/scenarios/`	列出场景
POST	`/api/v1/simulations/create`	创建模拟
POST	`/api/v1/simulations/{id}/join`	加入模拟
GET	`/api/v1/simulations/{id}`	获取模拟
GET	`/api/v1/simulations/`	列出模拟

引用

@software{swarm2026,
  title = {SWARM: System-Wide Assessment of Risk in Multi-agent systems},
  author = {Savitt, Raeli},
  year = {2026},
  url = {https://github.com/swarm-ai-safety/swarm}
}