名称: audio-cog
描述: 由 CellCog 驱动的 AI 音频生成。功能包括:文本转语音、语音合成、配音、播客音频、旁白、音乐生成、背景音乐、音效设计。使用 AI 进行专业音频创作。
元数据:
openclaw:
emoji: "🎵"
作者: CellCog
dependencies: [cellcog]
使用 AI 创作专业音频——从配音、旁白到背景音乐和音效设计。
此技能需要 cellcog 技能来完成 SDK 设置和 API 调用。
clawhub install cellcog
请先阅读 cellcog 技能以完成 SDK 设置。本技能将向您展示可实现的功能。
快速使用模式 (v1.0+):
# 即发即弃模式 - 立即返回
result = client.create_chat(
prompt="[您的音频请求]",
notify_session_key="agent:main:main",
task_label="audio-task",
chat_mode="agent" # 代理模式是所有音频任务的最佳选择
)
# 守护进程会在完成后通知您 - 请勿轮询
将文本转换为自然流畅的语音:
CellCog 提供 8 种具有鲜明特色的高质量语音:
| 语音 | 性别 | 最佳适用场景 | 特点 |
|---|---|---|---|
| cedar | 男 | 产品视频、公告 | 温暖、洪亮、权威、值得信赖 |
| marin | 女 | 专业内容、教程 | 明亮、清晰、情感丰富 |
| ballad | 男 | 讲故事、流畅的叙述 | 流畅、有旋律感、具有音乐性 |
| coral | 女 | 充满活力的内容、广告 | 充满活力、生动、动态、热情 |
| echo | 男 | 深思熟虑的内容、纪录片 | 平静、稳重、从容 |
| sage | 女 | 教育、知识性内容 | 睿智、沉思、反思性 |
| shimmer | 女 | 温和的内容、健康类 | 柔和、轻柔、舒缓、平易近人 |
| verse | 男 | 创意、艺术性内容 | 富有诗意、有节奏感、表现力强 |
用于产品视频和公告:
使用 cedar (男) 或 marin (女) —— 两者都能传达自信和专业感。
用于讲故事和有声书:
使用 ballad (男) 或 sage (女) —— 专为引人入胜、流畅的叙述而设计。
用于高能量内容:
使用 coral (女) —— 充满活力且富有动感,非常适合广告和激动人心的公告。
用于平静的教育内容:
使用 echo (男) 或 shimmer (女) —— 稳健的节奏非常适合学习。
除了选择语音,您还可以通过风格指令微调表达方式:
包含风格指令的示例:
"使用 cedar 语音生成配音,采用温暖、对话式的语调。以中等语速讲述,在提及功能时略带热情。美式口音。"
创作原创背景音乐和配乐:
| 参数 | 选项 |
|---|---|
| 时长 | 15 秒至 5 分钟以上 |
| 流派 | 电子、摇滚、古典、爵士、氛围、Lo-Fi、电影感、流行、嘻哈 |
| 速度 | 60 BPM (慢) 至 180+ BPM (快) |
| 情绪 | 欢快、平静、戏剧性、神秘、鼓舞人心、忧郁 |
| 乐器 | 钢琴、吉他、合成器、弦乐、鼓、铜管乐器等 |
CellCog 生成的所有 AI 音乐均为免版税,您可完全用于商业用途。
您拥有将生成的音乐用于以下用途的完整权利:
- YouTube 视频(包括可盈利内容)
- 商业项目和广告
- 播客和流媒体
- 应用和游戏
- 任何其他商业或个人用途
无需署名。无需许可费。音乐为您独家生成。
| 格式 | 最佳适用场景 |
|---|---|
| MP3 | 标准音频交付、配音、音乐 |
| 与视频结合 | 作为 video-cog 输出的背景音乐 |
对所有音频生成任务使用 chat_mode="agent"。
音频生成——无论是配音、音乐还是音效设计——在代理模式下都能高效执行。CellCog 的音频功能不需要多角度审议;它们需要精确执行,而这正是代理模式所擅长的。
没有哪种场景下代理团队模式能显著改善音频输出质量。请将代理团队模式留给那些能从多轮推理中受益的研究和复杂创意工作。
使用特定语音的专业配音:
"使用 marin 语音为以下脚本生成专业配音:
'隆重推出 TaskFlow —— 真正有效的项目管理工具。凭借智能自动化、无缝协作和强大的分析功能,TaskFlow 帮助团队发挥最佳水平。'
风格:自信而友好,中等语速。适合产品发布视频。"
包含语音选择的播客开场:
"使用 cedar 语音创建一段播客开场配音:
'欢迎收听《未来向前》,这是一档探索塑造未来的技术的播客。我是您的主持人,今天我们将深入探讨...'
风格:温暖且引人入胜,对话式语调。同时生成一段 10 秒的欢快开场背景音乐。"
背景音乐:
"生成 2 分钟平静、Lo-Fi 嘻哈风格的背景音乐。应保持放松且不突兀,适合学习或工作。包含轻柔的钢琴、柔和的节拍和轻微的唱片底噪。75 BPM。"
有声书旁白:
"使用 ballad 语音为以下段落创建有声书风格的旁白:
[段落文本]
风格:温暖的讲故事质感,稳健的节奏,并带有适当的戏剧性停顿。"
电影感音乐:
"为一家科技公司的'关于我们'视频生成 90 秒电影感的管弦乐。以柔和且鼓舞人心的方式开始,逐渐推向自信的高潮,最后以充满希望的结尾收尾。"
CellCog 可以生成 50 多种语言的语音:
在提示词中指定语言:
"使用 shimmer 语音,以日语生成以下文本,要求是母语女声:'いらっしゃいませ...'"