名称: llm-supervisor
描述: 优雅处理速率限制,支持 Ollama 回退。在遇到速率限制时通知用户,并为代码任务提供需确认的本地模型切换选项。
优雅地处理速率限制与模型回退。
当遇到来自云服务提供商(Anthropic, OpenAI)的速率限制或过载错误时:
在将本地模型用于代码生成前,需询问:
“云服务已达速率限制。是否切换到本地 Ollama (
qwen2.5:7b)?回复 ‘yes’ 以确认。”
对于简单查询(聊天、摘要),若用户先前已同意,则无需确认即可切换。
/llm status报告当前状态:
- 当前活跃的提供商(云端/本地)
- Ollama 可用性及模型列表
- 最近的速率限制事件
/llm switch local手动为当前会话切换到 Ollama。
/llm switch cloud切换回云服务提供商。
# 检查可用模型
ollama list
# 运行查询
ollama run qwen2.5:7b "你的提示词"
# 对于较长的提示词,使用标准输入
echo "你的提示词" | ollama run qwen2.5:7b
使用 ollama list 查看。配置的默认模型为 qwen2.5:7b。
在会话期间于内存中跟踪:
- currentProvider: "cloud" | "local"
- lastRateLimitAt: 时间戳或 null
- localConfirmedForCode: 布尔值
每次会话开始时重置为云端模式。