OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  moodcast:将文本转换为带有环境背景音的情感表现力音频

moodcast:将文本转换为带有环境背景音的情感表现力音频

 
  redis ·  2026-02-06 00:08:08 · 3 次点击  · 0 条评论  

名称: moodcast
描述: 利用 ElevenLabs v3 音频标签和音效 API,将任意文本转换为带有环境音景的情感化音频
元数据: {"moltbot":{"requires":{"env":["ELEVENLABS_API_KEY"]},"primaryEnv":"ELEVENLABS_API_KEY","homepage":"https://github.com/ashutosh887/moodcast"}}


MoodCast

将任意文本转换为带有环境音景的情感化音频。MoodCast 会分析你的内容,使用 ElevenLabs v3 音频标签添加富有表现力的演绎,并叠加匹配的环境音景。

使用场景

当用户希望实现以下目标时,可使用 MoodCast:
* 听到带有自然情感表达的文本朗读
* 为文章、故事或脚本创建音频版本
* 生成带有环境氛围的情感化旁白
* 收听真正引人入胜的晨间简报
* 将枯燥的文本转变为引人入胜的音频内容

触发短语: "有感情地读一下这个"、"让这个听起来好听点"、"为...创建音频"、"moodcast 这个"、"带感情地读"、"朗读这个"

斜杠命令: /moodcast

核心功能

1. 情感感知文本增强

自动分析文本并插入合适的 v3 音频标签:
* 情感: [excited](兴奋)、[nervous](紧张)、[angry](愤怒)、[sorrowful](悲伤)、[calm](平静)、[happy](快乐)
* 表达方式: [whispers](耳语)、[shouts](呼喊)、[rushed](急促)、[slows down](放慢)
* 反应: [laughs](大笑)、[sighs](叹息)、[gasps](倒吸一口气)、[giggles](咯咯笑)、[crying](哭泣)
* 节奏: [pause](暂停)、[breathes](呼吸)、[stammers](结巴)、[hesitates](犹豫)

2. 环境音景生成

使用音效 API 创建匹配的背景音频:
* 新闻 → 微妙的办公室氛围
* 故事 → 匹配情绪的氛围音景
* 励志内容 → 鼓舞人心的背景音
* 恐怖内容 → 紧张、诡异的氛围

3. 多角色对话

针对对话或剧本,为不同说话者分配不同的声音,并配以恰当的情感表达。

使用指南

快速朗读(单条命令)

python3 {baseDir}/scripts/moodcast.py --text "你的文本内容"

带环境音

python3 {baseDir}/scripts/moodcast.py --text "你的文本内容" --ambient "咖啡店背景噪音"

保存到文件

python3 {baseDir}/scripts/moodcast.py --text "你的文本内容" --output story.mp3

不同情绪模式

python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood dramatic
python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood calm
python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood excited
python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood scary

列出可用声音

python3 {baseDir}/scripts/moodcast.py --list-voices

自定义配置

python3 {baseDir}/scripts/moodcast.py --text "你的文本" --voice VOICE_ID --model eleven_v3 --output-format mp3_44100_128

情感检测规则

该技能会自动检测并增强以下文本模式:

文本模式 添加的音频标签
"amazing"、"incredible"、"wow" [excited]
"scared"、"afraid"、"terrified" [nervous]
"angry"、"furious"、"hate" [angry]
"sad"、"sorry"、"unfortunately" [sorrowful]
"secret"、"quiet"、"between us" [whispers]
"!" 感叹号 [excited]
"..." 省略号 [pause]
"haha"、"lol" [laughs]
疑问句 自然的升调

转换示例

输入:

突发新闻!科学家们发现了一些不可思议的东西。
这可能会改变我们对宇宙的所有认知...
我简直不敢相信。

增强后输出:

[excited] 突发新闻!科学家们发现了一些不可思议的东西。
[pause] 这可能会改变我们对宇宙的所有认知...
[gasps] [whispers] 我简直不敢相信。

输入:

那是一个漆黑的夜晚。老房子吱呀作响。
阴影中有东西在移动...
"谁在那儿?" 她低声问道。

增强后输出:

[slows down] 那是一个漆黑的夜晚。[pause] 老房子吱呀作响。
[nervous] 阴影中有东西在移动...
[whispers] "谁在那儿?" 她低声问道。

环境变量

  • ELEVENLABS_API_KEY(必需)- 你的 ElevenLabs API 密钥
  • MOODCAST_DEFAULT_VOICE(可选)- 默认语音 ID(默认为 CwhRBWXzGAHq8TQ4Fs17
  • MOODCAST_MODEL(可选)- 默认模型 ID(默认为 eleven_v3
  • MOODCAST_OUTPUT_FORMAT(可选)- 默认输出格式(默认为 mp3_44100_128
  • MOODCAST_AUTO_AMBIENT(可选)- 设置为 "true" 可在使用 --mood 时自动添加环境音

配置优先级: 命令行参数 > 环境变量 > 硬编码默认值。

技术说明

  • 使用 ElevenLabs Eleven v3 模型以支持音频标签
  • 使用音效 API 生成环境音(最长 30 秒)
  • 免费额度:每月 10,000 积分(约 10 分钟音频)
  • 每个文本块最多 2,400 个字符(v3 支持 5,000,但为可靠性起见进行保守分割)
  • 音频标签必须小写:使用 [whispers],而非 [WHISPERS]

最佳实践建议

  1. 戏剧性内容效果最佳——故事、新闻、剧本
  2. 较短的段落(500 字符以内)听起来更自然
  3. 结合环境音以获得沉浸式体验
  4. Roger 和 Rachel 语音在 v3 模型下表现力最强

致谢

ashutosh887 构建
使用 ElevenLabs 文本转语音 v3 + 音效 API
为 #ClawdEleven 黑客松创建

3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor