OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  mlti-llm-fallback:多模型智能切换与故障回退系统

mlti-llm-fallback:多模型智能切换与故障回退系统

 
  architecture ·  2026-02-22 22:32:19 · 3 次点击  · 0 条评论  

名称: multi-llm
描述: 多 LLM 智能切换。使用命令 'multi llm' 可根据任务类型激活本地模型选择。默认使用 Claude Opus 4.5。
trigger: multi llm
版本: 1.1.0
作者: leohan123123
标签: llm, ollama, local-model, fallback, multi-model


Multi-LLM - 智能模型切换

触发命令: multi llm

默认行为: 始终使用 Claude Opus 4.5(最强模型)。
仅当消息包含 multi llm 命令时,才会激活本地模型选择。

v1.1.0 更新内容

  • 将触发命令从 mlti llm 重命名为 multi llm(命名更清晰)
  • 增强了模型存在性检查,并包含备用链
  • 新增了详细的使用示例和故障排除指南
  • 改进了任务检测模式

使用方法

默认模式(无命令)

帮我写一个 Python 函数 -> 使用 Claude Opus 4.5
分析这段代码 -> 使用 Claude Opus 4.5

多模型模式(使用命令)

multi llm 帮我写一个 Python 函数 -> 选择 qwen2.5-coder:32b
multi llm 分析这个数学证明 -> 选择 deepseek-r1:70b
multi llm 翻译成中文 -> 选择 glm4:9b

命令格式

命令 描述
multi llm 激活智能模型选择
multi llm coding 强制使用编程模型
multi llm reasoning 强制使用推理模型
multi llm chinese 强制使用中文模型
multi llm general 强制使用通用模型

模型映射

主模型(默认): github-copilot/claude-opus-4.5

本地模型(当触发 multi llm 时):

任务类型 模型 大小 最适用场景
编程 qwen2.5-coder:32b 19GB 代码生成、调试、重构
推理 deepseek-r1:70b 42GB 数学、逻辑、复杂分析
中文 glm4:9b 5.5GB 翻译、摘要、快速任务
通用 qwen3:32b 20GB 通用目的、备用

备用链

如果所选模型不可用,系统会尝试替代方案:

编程:    qwen2.5-coder:32b -> qwen2.5-coder:14b -> qwen3:32b
推理:    deepseek-r1:70b -> deepseek-r1:32b -> qwen3:32b
中文:    glm4:9b -> qwen3:8b -> qwen3:32b
通用:    qwen3:32b -> qwen3:14b -> qwen3:8b

检测逻辑

用户输入
    |
    v
是否包含 "multi llm"?
    |
    +-- 否 -> 使用 Claude Opus 4.5(默认)
    |
    +-- 是 -> 任务类型检测
                |
        +-------+-------+-------+
        v       v       v       v
      编程     推理     中文     通用
        |       |       |       |
        v       v       v       v
    qwen2.5  deepseek  glm4   qwen3
    coder    r1:70b    :9b    :32b

任务检测关键词

类别 关键词(英文) 关键词(中文)
编程 code, debug, function, script, api, bug, refactor, python, java, javascript 代码, 编程, 函数, 调试, 重构
推理 analysis, proof, logic, math, solve, algorithm, evaluate 推理, 分析, 证明, 逻辑, 数学, 计算, 算法
中文 translate, summary 翻译, 总结, 摘要, 简单, 快速

示例

示例 1:编程任务

# 输入
multi llm 写一个计算斐波那契数列的 Python 函数

# 输出
已选择: qwen2.5-coder:32b
原因: 检测到编程任务(关键词: python, function)

示例 2:数学分析

# 输入
multi llm reasoning 证明 sqrt(2) 是无理数

# 输出
已选择: deepseek-r1:70b
原因: 使用了强制命令 'reasoning'

示例 3:快速翻译

# 输入
multi llm 把这段话翻译成英文

# 输出
已选择: glm4:9b
原因: 检测到中文轻量级任务(关键词: 翻译)

示例 4:默认(无触发)

# 输入
写一个带身份验证的 REST API

# 输出
已选择: claude-opus-4.5
原因: 默认模型(未触发 'multi llm')

前提条件

  1. 必须安装并运行 Ollama:
    ```bash
    # 安装 Ollama
    curl -fsSL https://ollama.com/install.sh | sh

    启动 Ollama 服务

    ollama serve

    拉取所需模型

    ollama pull qwen2.5-coder:32b
    ollama pull deepseek-r1:70b
    ollama pull glm4:9b
    ollama pull qwen3:32b
    ```

  2. 检查可用模型:
    bash ollama list

故障排除

模型未找到

# 检查模型是否存在
ollama list | grep "qwen2.5-coder"

# 拉取缺失的模型
ollama pull qwen2.5-coder:32b

Ollama 未运行

# 检查服务状态
curl -s http://localhost:11434/api/tags

# 启动 Ollama
ollama serve &

响应缓慢

  • 大模型(如 70b)需要大量 RAM/VRAM
  • 可考虑使用较小变体:例如用 deepseek-r1:32b 替代 70b

选择了错误的模型

  • 使用强制命令:multi llm coding, multi llm reasoning
  • 检查关键词是否与您的任务类型匹配

技能包文件结构

multi-llm/
├── SKILL.md              # 本文档
└── scripts/
    ├── select-model.sh   # 模型选择逻辑脚本
    └── fallback-demo.sh  # 交互式演示脚本

集成

与 OpenCode/ClaudeCode 集成

您的消息中会检测到 multi llm 触发器。只需在请求前加上前缀:

multi llm [您的请求内容]

编程式使用

# 获取针对任务的推荐模型
./scripts/select-model.sh "multi llm 写一个排序算法"
# 输出: qwen2.5-coder:32b

# 使用实际模型调用进行演示
./scripts/fallback-demo.sh --force-local "解释递归"

作者

许可证

MIT

3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor