名称: phone-agent
描述: "运行一个使用 Twilio、Deepgram 和 ElevenLabs 的实时 AI 电话助手。处理来电、转录音频、通过 LLM 生成回复,并通过流式 TTS 语音回复。适用于以下场景:(1) 测试语音 AI 能力,(2) 以编程方式处理电话,(3) 构建对话式语音机器人。"
运行一个本地 FastAPI 服务器,作为实时语音桥梁。
Twilio (电话) <--> WebSocket (音频) <--> [本地服务器] <--> Deepgram (语音转文字)
|
+--> OpenAI (大语言模型)
+--> ElevenLabs (文字转语音)
安装依赖:
bash
pip install -r scripts/requirements.txt
设置环境变量(在 ~/.moltbot/.env、~/.clawdbot/.env 中设置或直接导出):
bash
export DEEPGRAM_API_KEY="你的密钥"
export OPENAI_API_KEY="你的密钥"
export ELEVENLABS_API_KEY="你的密钥"
export TWILIO_ACCOUNT_SID="你的账户SID"
export TWILIO_AUTH_TOKEN="你的认证令牌"
export PORT=8080
启动服务器:
bash
python3 scripts/server.py
暴露到公网:
bash
ngrok http 8080
配置 Twilio:
https://<你的-ngrok-地址>.ngrok.io/incomingPOST拨打你的 Twilio 号码。助手将接听电话,转录你的语音,思考后以自然的语音进行回复。
scripts/server.py 中的 SYSTEM_PROMPT 来更改助手角色设定。ELEVENLABS_VOICE_ID 以使用不同的语音。gpt-4o-mini 切换为 gpt-4 以获得更智能(但稍慢)的回复。