voice-agent：为智能体提供本地语音输入输出交互能力

edge · 2026-02-06 02:46:20 · 55 次点击 · 0 条评论

名称： voice-agent
display-name: AI 语音代理后端
版本： 1.1.0
描述： 使用 AI 语音代理 API 为智能体提供本地语音输入/输出功能。
作者： trevisanricardo
主页： https://github.com/ricardotrevisan/ai-conversational-skill
user-invocable: true
disable-model-invocation: false

语音代理

本技能允许你通过本地语音代理 API 与用户进行语音交互。
它是一个纯客户端技能，不会启动任何容器或服务。
它使用本地 Whisper 进行语音转文本识别，并使用 AWS Polly 进行文本转语音生成。

前置条件

需要确保后端 API 在 http://localhost:8000 上运行。
后端设置说明位于此代码仓库中：
- README.md
- walkthrough.md
- DOCKER_README.md

行为准则

音频优先：当用户通过音频（文件）交流时，你的主要响应模式应为音频文件。
静默交付：发送音频响应时，切勿附带诸如“我已发送音频”之类的文字说明。直接发送音频文件即可。
工作流程：
1. 用户发送音频。
2. 使用 transcribe 功能读取音频内容。
3. 你构思回复。
4. 使用 synthesize 功能生成音频文件。
5. 你发送该文件。
6. 停止。不要添加任何文字评论。
故障处理：如果 health 检查失败或出现连接错误，请勿尝试通过此技能管理服务。请引导用户根据仓库文档启动或修复后端。

工具

转录文件

要使用本地 Whisper STT 转录音频文件，请运行带有 transcribe 命令的客户端脚本。

python3 {baseDir}/scripts/client.py transcribe "/path/to/audio/file.ogg"

合成到文件

要使用 AWS Polly TTS 从文本生成音频并保存到文件，请运行带有 synthesize 命令的客户端脚本。

python3 {baseDir}/scripts/client.py synthesize "要朗读的文本" --output "/path/to/output.mp3"

健康检查

要检查语音代理 API 是否正在运行且状态正常：

python3 {baseDir}/scripts/client.py health

技能包地址：https://github.com/openclaw/skills/tree/main/skills/ricardotrevisan/voice-agent/SKILL.md

55 次点击 ∙ 0 人收藏

登录后收藏

0 条回复