OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  local-stt:支持 Parakeet 或 Whisper 后端的本地语音转文本工具

local-stt:支持 Parakeet 或 Whisper 后端的本地语音转文本工具

 
  frontend ·  2026-02-05 23:41:19 · 3 次点击  · 0 条评论  

名称: local-stt
描述: 本地语音转文字,支持可切换的后端引擎——Parakeet(最佳准确率)或 Whisper(最快速度,支持多语言)。
元数据: {"openclaw":{"emoji":"🎙️","requires":{"bins":["ffmpeg"]}}}


本地语音转文字(Parakeet / Whisper)

使用 ONNX Runtime 并采用 int8 量化的统一本地语音转文字方案。请选择您的后端引擎:

  • Parakeet(默认):针对英语具有最佳准确率,能正确识别人名和填充词
  • Whisper:推理速度最快,支持 99 种语言

使用方法

# 默认:Parakeet v2(英语最佳准确率)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg

# 显式指定后端
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3

# 静默模式(不显示进度)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet

选项参数

  • -b/--backend: 后端引擎,可选 parakeet(默认)或 whisper
  • -m/--model: 模型变体(详见下文)
  • --no-int8: 禁用 int8 量化
  • -q/--quiet: 静默模式,不显示进度信息
  • --room-id: 用于直接消息的 Matrix 房间 ID

模型说明

Parakeet(默认后端)

模型 描述
v2(默认) 仅支持英语,准确率最高
v3 支持多语言

Whisper

模型 描述
tiny 速度最快,准确率较低
base(默认) 良好的平衡性
small 准确率更佳
large-v3-turbo 质量最好,速度较慢

性能基准(24秒音频)

后端/模型 耗时 实时因子 备注
Whisper Base int8 0.43秒 0.018x 速度最快
Parakeet v2 int8 0.60秒 0.025x 准确率最高
Parakeet v3 int8 0.63秒 0.026x 支持多语言

openclaw.json 配置示例

{
  "tools": {
    "media": {
      "audio": {
        "enabled": true,
        "models": [
          {
            "type": "cli",
            "command": "~/.openclaw/skills/local-stt/scripts/local-stt.py",
            "args": ["--quiet", "{{MediaPath}}"],
            "timeoutSeconds": 30
          }
        ]
      }
    }
  }
}
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor