llm-supervisor：具备本地 Ollama 故障转移机制的优雅限流处理器

iphone · 2026-02-04 11:49:43 · 17 次点击 · 0 条评论

名称： llm-supervisor
描述： 优雅处理速率限制，支持 Ollama 回退。在遇到速率限制时通知用户，并为代码任务提供需确认的本地模型切换选项。

LLM 监督器 🔮

优雅地处理速率限制与模型回退。

当遇到来自云服务提供商（Anthropic, OpenAI）的速率限制或过载错误时：

在将本地模型用于代码生成前，需询问：

“云服务已达速率限制。是否切换到本地 Ollama (qwen2.5:7b)？回复 ‘yes’ 以确认。”

对于简单查询（聊天、摘要），若用户先前已同意，则无需确认即可切换。

报告当前状态：
- 当前活跃的提供商（云端/本地）
- Ollama 可用性及模型列表
- 最近的速率限制事件

手动为当前会话切换到 Ollama。

切换回云服务提供商。

# 检查可用模型
ollama list

# 运行查询
ollama run qwen2.5:7b "你的提示词"

# 对于较长的提示词，使用标准输入
echo "你的提示词" | ollama run qwen2.5:7b

使用 ollama list 查看。配置的默认模型为 qwen2.5:7b。

在会话期间于内存中跟踪：
- currentProvider: "cloud" | "local"
- lastRateLimitAt: 时间戳或 null
- localConfirmedForCode: 布尔值

每次会话开始时重置为云端模式。

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复