OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  walkie-talkie:在 WhatsApp 上处理实时语音到语音的对话交互交互

walkie-talkie:在 WhatsApp 上处理实时语音到语音的对话交互交互

 
  microservice ·  2026-02-28 02:46:15 · 2 次点击  · 0 条评论  

name: 对讲机模式
description: 处理 WhatsApp 上的语音对话。自动转录收到的音频,并使用本地 TTS 音频进行回复。适用于用户希望“交谈”而非打字的情况。


对讲机模式

此技能利用本地转录和本地 TTS,自动化处理 WhatsApp 上的语音对话循环。

工作流程

  1. 接收音频:当用户发送音频(如 .ogg/.opus 文件)时:

    • 使用 tools/transcribe_voice.sh 获取文本。
    • 将文本作为普通用户提示进行处理。
  2. 发送回复

    • 不回复文本,而是使用 bin/sherpa-onnx-tts 生成语音。
    • 将生成的 .ogg 文件作为语音消息发送给用户。

触发条件

  • 用户发送语音消息。
  • 用户说出“activa modo walkie-talkie”或“hablemos por voz”(西班牙语,意为“启用对讲机模式”或“我们用语音交流吧”)。

约束条件

  • 仅使用本地工具(ffmpeg、whisper-cpp、sherpa-onnx-tts)。
  • 保持快速响应时间(RTF < 0.5)。
  • 始终同时回复文本(用于清晰展示)和音频。

手动执行(内部使用)

如需手动回复语音,请执行:

bin/sherpa-onnx-tts /tmp/reply.ogg "你的消息内容"

然后通过 message 工具的 filePath 参数发送 /tmp/reply.ogg 文件。

2 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor