名称: podcast-generation
描述: 使用 Azure OpenAI 的 GPT Realtime Mini 模型通过 WebSocket 生成 AI 驱动的播客风格音频叙事。适用于构建文本转语音功能、音频叙事生成、从内容创建播客,或与 Azure OpenAI Realtime API 集成以输出真实音频。涵盖从 React 前端到 Python FastAPI 后端 WebSocket 流式传输的全栈实现。
利用 Azure OpenAI 的 Realtime API,将文本内容转换为真实的音频叙事。
AZURE_OPENAI_AUDIO_API_KEY=你的实时API密钥
AZURE_OPENAI_AUDIO_ENDPOINT=https://你的资源.cognitiveservices.azure.com
AZURE_OPENAI_AUDIO_DEPLOYMENT=gpt-realtime-mini
注意:端点 URL 不应包含 /openai/v1/,只需基础 URL。
from openai import AsyncOpenAI
import base64
# 将 HTTPS 端点转换为 WebSocket URL
ws_url = endpoint.replace("https://", "wss://") + "/openai/v1"
client = AsyncOpenAI(
websocket_base_url=ws_url,
api_key=api_key
)
audio_chunks = []
transcript_parts = []
async with client.realtime.connect(model="gpt-realtime-mini") as conn:
# 配置为仅输出音频
await conn.session.update(session={
"output_modalities": ["audio"],
"instructions": "你是一个旁白。请自然地说话。"
})
# 发送要叙述的文本
await conn.conversation.item.create(item={
"type": "message",
"role": "user",
"content": [{"type": "input_text", "text": prompt}]
})
await conn.response.create()
# 收集流式事件
async for event in conn:
if event.type == "response.output_audio.delta":
audio_chunks.append(base64.b64decode(event.delta))
elif event.type == "response.output_audio_transcript.delta":
transcript_parts.append(event.delta)
elif event.type == "response.done":
break
# 将 PCM 转换为 WAV (参考 scripts/pcm_to_wav.py)
pcm_audio = b''.join(audio_chunks)
wav_audio = pcm_to_wav(pcm_audio, sample_rate=24000)
// 将 base64 编码的 WAV 转换为可播放的 Blob
const base64ToBlob = (base64, mimeType) => {
const bytes = atob(base64);
const arr = new Uint8Array(bytes.length);
for (let i = 0; i < bytes.length; i++) arr[i] = bytes.charCodeAt(i);
return new Blob([arr], { type: mimeType });
};
const audioBlob = base64ToBlob(response.audio_data, 'audio/wav');
const audioUrl = URL.createObjectURL(audioBlob);
new Audio(audioUrl).play();
| 语音 | 特点 |
|---|---|
| alloy | 中性 |
| echo | 温暖 |
| fable | 富有表现力 |
| onyx | 深沉 |
| nova | 友好 |
| shimmer | 清晰 |
response.output_audio.delta - Base64 音频块response.output_audio_transcript.delta - 转录文本response.done - 生成完成error - 通过 event.error.message 处理错误