OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  audio-cog:基于 CellCog 驱动的 AI 级高品质音频生成工具

audio-cog:基于 CellCog 驱动的 AI 级高品质音频生成工具

 
  ten ·  2026-02-04 14:14:31 · 17 次点击  · 0 条评论  

名称: audio-cog
描述: 由 CellCog 驱动的 AI 音频生成。功能包括:文本转语音、语音合成、配音、播客音频、旁白、音乐生成、背景音乐、音效设计。使用 AI 进行专业音频创作。
元数据:
openclaw:
emoji: "🎵"
作者: CellCog
dependencies: [cellcog]


Audio Cog - 由 CellCog 驱动的 AI 音频生成

使用 AI 创作专业音频——从配音、旁白到背景音乐和音效设计。


前置条件

此技能需要 cellcog 技能来完成 SDK 设置和 API 调用。

clawhub install cellcog

请先阅读 cellcog 技能以完成 SDK 设置。本技能将向您展示可实现的功能。

快速使用模式 (v1.0+):

# 即发即弃模式 - 立即返回
result = client.create_chat(
    prompt="[您的音频请求]",
    notify_session_key="agent:main:main",
    task_label="audio-task",
    chat_mode="agent"  # 代理模式是所有音频任务的最佳选择
)
# 守护进程会在完成后通知您 - 请勿轮询

可创建的音频类型

文本转语音 / 配音

将文本转换为自然流畅的语音:

  • 旁白:"为这个产品视频脚本生成专业的男声配音"
  • 有声书风格:"以富有情感的演绎方式,为这个短篇故事创作引人入胜的旁白"
  • 播客开场:"生成一段温暖、友好的播客开场白:'欢迎收听《每日科技》...'"
  • 电子学习:"为这个培训模块创建清晰、具有指导性的配音"
  • 交互式语音应答/电话系统:"生成专业的电话菜单提示音"

可用语音

CellCog 提供 8 种具有鲜明特色的高质量语音:

语音 性别 最佳适用场景 特点
cedar 产品视频、公告 温暖、洪亮、权威、值得信赖
marin 专业内容、教程 明亮、清晰、情感丰富
ballad 讲故事、流畅的叙述 流畅、有旋律感、具有音乐性
coral 充满活力的内容、广告 充满活力、生动、动态、热情
echo 深思熟虑的内容、纪录片 平静、稳重、从容
sage 教育、知识性内容 睿智、沉思、反思性
shimmer 温和的内容、健康类 柔和、轻柔、舒缓、平易近人
verse 创意、艺术性内容 富有诗意、有节奏感、表现力强

按使用场景推荐的语音

用于产品视频和公告:

使用 cedar (男) 或 marin (女) —— 两者都能传达自信和专业感。

用于讲故事和有声书:

使用 ballad (男) 或 sage (女) —— 专为引人入胜、流畅的叙述而设计。

用于高能量内容:

使用 coral (女) —— 充满活力且富有动感,非常适合广告和激动人心的公告。

用于平静的教育内容:

使用 echo (男) 或 shimmer (女) —— 稳健的节奏非常适合学习。

语音风格定制

除了选择语音,您还可以通过风格指令微调表达方式:

  • 口音与方言:美式、英式、澳大利亚式、印度式等。
  • 情感范围:兴奋、严肃、温暖、神秘、戏剧性
  • 节奏:缓慢而从容、对话式、快速而充满活力
  • 特殊效果:耳语、角色模仿

包含风格指令的示例:

"使用 cedar 语音生成配音,采用温暖、对话式的语调。以中等语速讲述,在提及功能时略带热情。美式口音。"


音乐生成

创作原创背景音乐和配乐:

  • 背景音乐:"为学习视频创作 2 分钟平静的 Lo-Fi 背景音乐"
  • 播客音乐:"为一档科技播客生成 15 秒欢快的开场音乐"
  • 视频配乐:"为产品发布视频创作电影级的管弦乐"
  • 氛围/情绪音乐:"为一款冥想应用生成宁静的环境音"
  • 特定流派:"为健身视频创作充满活力的电子音乐"

音乐规格参数

参数 选项
时长 15 秒至 5 分钟以上
流派 电子、摇滚、古典、爵士、氛围、Lo-Fi、电影感、流行、嘻哈
速度 60 BPM (慢) 至 180+ BPM (快)
情绪 欢快、平静、戏剧性、神秘、鼓舞人心、忧郁
乐器 钢琴、吉他、合成器、弦乐、鼓、铜管乐器等

音乐许可

CellCog 生成的所有 AI 音乐均为免版税,您可完全用于商业用途。

您拥有将生成的音乐用于以下用途的完整权利:
- YouTube 视频(包括可盈利内容)
- 商业项目和广告
- 播客和流媒体
- 应用和游戏
- 任何其他商业或个人用途

无需署名。无需许可费。音乐为您独家生成。


音频输出格式

格式 最佳适用场景
MP3 标准音频交付、配音、音乐
与视频结合 作为 video-cog 输出的背景音乐

音频生成的聊天模式

对所有音频生成任务使用 chat_mode="agent"

音频生成——无论是配音、音乐还是音效设计——在代理模式下都能高效执行。CellCog 的音频功能不需要多角度审议;它们需要精确执行,而这正是代理模式所擅长的。

没有哪种场景下代理团队模式能显著改善音频输出质量。请将代理团队模式留给那些能从多轮推理中受益的研究和复杂创意工作。


音频提示词示例

使用特定语音的专业配音:

"使用 marin 语音为以下脚本生成专业配音:

'隆重推出 TaskFlow —— 真正有效的项目管理工具。凭借智能自动化、无缝协作和强大的分析功能,TaskFlow 帮助团队发挥最佳水平。'

风格:自信而友好,中等语速。适合产品发布视频。"

包含语音选择的播客开场:

"使用 cedar 语音创建一段播客开场配音:

'欢迎收听《未来向前》,这是一档探索塑造未来的技术的播客。我是您的主持人,今天我们将深入探讨...'

风格:温暖且引人入胜,对话式语调。同时生成一段 10 秒的欢快开场背景音乐。"

背景音乐:

"生成 2 分钟平静、Lo-Fi 嘻哈风格的背景音乐。应保持放松且不突兀,适合学习或工作。包含轻柔的钢琴、柔和的节拍和轻微的唱片底噪。75 BPM。"

有声书旁白:

"使用 ballad 语音为以下段落创建有声书风格的旁白:

[段落文本]

风格:温暖的讲故事质感,稳健的节奏,并带有适当的戏剧性停顿。"

电影感音乐:

"为一家科技公司的'关于我们'视频生成 90 秒电影感的管弦乐。以柔和且鼓舞人心的方式开始,逐渐推向自信的高潮,最后以充满希望的结尾收尾。"


多语言支持

CellCog 可以生成 50 多种语言的语音:

  • 英语(多种口音)
  • 西班牙语、法语、德语、意大利语、葡萄牙语
  • 中文(普通话、粤语)
  • 日语、韩语
  • 印地语、阿拉伯语
  • 俄语、波兰语、荷兰语
  • 以及更多其他语言

在提示词中指定语言:

"使用 shimmer 语音,以日语生成以下文本,要求是母语女声:'いらっしゃいませ...'"


获得更好音频的提示

  1. 选择合适的语音:根据内容类型匹配语音。Cedar/marin 适合专业内容,ballad/sage 适合讲故事,coral 适合充满活力的内容。
  2. 提供完整的脚本:不要只说"关于我们产品的介绍"——完整写出应该说的内容。
  3. 包含风格指令:"自信但温暖"、"缓慢而从容"、"略带兴奋"等有助于塑造表达方式。
  4. 对于音乐:指定时长、速度(如果知道 BPM)、情绪和流派。
  5. 发音指导:对于名称或技术术语,添加提示:"CellCog (发音为 SELL-kog)"
  6. 情感节奏:对于较长的配音,指示语调变化:"[兴奋地] 现在揭晓重大消息... [严肃地] 但有一个问题。"
17 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 32 ms
Developed with Cursor