名称: local-stt
描述: 本地语音转文字,支持可切换的后端引擎——Parakeet(最佳准确率)或 Whisper(最快速度,支持多语言)。
元数据: {"openclaw":{"emoji":"🎙️","requires":{"bins":["ffmpeg"]}}}
本地语音转文字(Parakeet / Whisper)
使用 ONNX Runtime 并采用 int8 量化的统一本地语音转文字方案。请选择您的后端引擎:
- Parakeet(默认):针对英语具有最佳准确率,能正确识别人名和填充词
- Whisper:推理速度最快,支持 99 种语言
使用方法
# 默认:Parakeet v2(英语最佳准确率)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg
# 显式指定后端
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3
# 静默模式(不显示进度)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet
选项参数
-b/--backend: 后端引擎,可选 parakeet(默认)或 whisper
-m/--model: 模型变体(详见下文)
--no-int8: 禁用 int8 量化
-q/--quiet: 静默模式,不显示进度信息
--room-id: 用于直接消息的 Matrix 房间 ID
模型说明
Parakeet(默认后端)
| 模型 |
描述 |
| v2(默认) |
仅支持英语,准确率最高 |
| v3 |
支持多语言 |
Whisper
| 模型 |
描述 |
| tiny |
速度最快,准确率较低 |
| base(默认) |
良好的平衡性 |
| small |
准确率更佳 |
| large-v3-turbo |
质量最好,速度较慢 |
性能基准(24秒音频)
| 后端/模型 |
耗时 |
实时因子 |
备注 |
| Whisper Base int8 |
0.43秒 |
0.018x |
速度最快 |
| Parakeet v2 int8 |
0.60秒 |
0.025x |
准确率最高 |
| Parakeet v3 int8 |
0.63秒 |
0.026x |
支持多语言 |
openclaw.json 配置示例
{
"tools": {
"media": {
"audio": {
"enabled": true,
"models": [
{
"type": "cli",
"command": "~/.openclaw/skills/local-stt/scripts/local-stt.py",
"args": ["--quiet", "{{MediaPath}}"],
"timeoutSeconds": 30
}
]
}
}
}
}