moodcast：将文本转换为带有环境背景音的情感表现力音频

ping · 2026-02-06 00:08:08 · 68 次点击 · 0 条评论

名称： moodcast
描述： 利用 ElevenLabs v3 音频标签和音效 API，将任意文本转换为带有环境音景的情感化音频
元数据： {"moltbot":{"requires":{"env":["ELEVENLABS_API_KEY"]},"primaryEnv":"ELEVENLABS_API_KEY","homepage":"https://github.com/ashutosh887/moodcast"}}

MoodCast

将任意文本转换为带有环境音景的情感化音频。MoodCast 会分析你的内容，使用 ElevenLabs v3 音频标签添加富有表现力的演绎，并叠加匹配的环境音景。

使用场景

当用户希望实现以下目标时，可使用 MoodCast：
* 听到带有自然情感表达的文本朗读
* 为文章、故事或脚本创建音频版本
* 生成带有环境氛围的情感化旁白
* 收听真正引人入胜的晨间简报
* 将枯燥的文本转变为引人入胜的音频内容

触发短语： "有感情地读一下这个"、"让这个听起来好听点"、"为...创建音频"、"moodcast 这个"、"带感情地读"、"朗读这个"

斜杠命令： /moodcast

核心功能

1. 情感感知文本增强

自动分析文本并插入合适的 v3 音频标签：
* 情感： [excited]（兴奋）、[nervous]（紧张）、[angry]（愤怒）、[sorrowful]（悲伤）、[calm]（平静）、[happy]（快乐）
* 表达方式： [whispers]（耳语）、[shouts]（呼喊）、[rushed]（急促）、[slows down]（放慢）
* 反应： [laughs]（大笑）、[sighs]（叹息）、[gasps]（倒吸一口气）、[giggles]（咯咯笑）、[crying]（哭泣）
* 节奏： [pause]（暂停）、[breathes]（呼吸）、[stammers]（结巴）、[hesitates]（犹豫）

2. 环境音景生成

使用音效 API 创建匹配的背景音频：
* 新闻 → 微妙的办公室氛围
* 故事 → 匹配情绪的氛围音景
* 励志内容 → 鼓舞人心的背景音
* 恐怖内容 → 紧张、诡异的氛围

3. 多角色对话

针对对话或剧本，为不同说话者分配不同的声音，并配以恰当的情感表达。

使用指南

快速朗读（单条命令）

python3 {baseDir}/scripts/moodcast.py --text "你的文本内容"

带环境音

python3 {baseDir}/scripts/moodcast.py --text "你的文本内容" --ambient "咖啡店背景噪音"

保存到文件

python3 {baseDir}/scripts/moodcast.py --text "你的文本内容" --output story.mp3

不同情绪模式

python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood dramatic
python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood calm
python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood excited
python3 {baseDir}/scripts/moodcast.py --text "你的文本" --mood scary

列出可用声音

python3 {baseDir}/scripts/moodcast.py --list-voices

自定义配置

python3 {baseDir}/scripts/moodcast.py --text "你的文本" --voice VOICE_ID --model eleven_v3 --output-format mp3_44100_128

情感检测规则

该技能会自动检测并增强以下文本模式：

文本模式	添加的音频标签
"amazing"、"incredible"、"wow"	`[excited]`
"scared"、"afraid"、"terrified"	`[nervous]`
"angry"、"furious"、"hate"	`[angry]`
"sad"、"sorry"、"unfortunately"	`[sorrowful]`
"secret"、"quiet"、"between us"	`[whispers]`
"!" 感叹号	`[excited]`
"..." 省略号	`[pause]`
"haha"、"lol"	`[laughs]`
疑问句	自然的升调

转换示例

输入：

突发新闻！科学家们发现了一些不可思议的东西。
这可能会改变我们对宇宙的所有认知...
我简直不敢相信。

增强后输出：

[excited] 突发新闻！科学家们发现了一些不可思议的东西。
[pause] 这可能会改变我们对宇宙的所有认知...
[gasps] [whispers] 我简直不敢相信。

输入：

那是一个漆黑的夜晚。老房子吱呀作响。
阴影中有东西在移动...
"谁在那儿？" 她低声问道。

增强后输出：

[slows down] 那是一个漆黑的夜晚。[pause] 老房子吱呀作响。
[nervous] 阴影中有东西在移动...
[whispers] "谁在那儿？" 她低声问道。

环境变量

ELEVENLABS_API_KEY（必需）- 你的 ElevenLabs API 密钥
MOODCAST_DEFAULT_VOICE（可选）- 默认语音 ID（默认为 CwhRBWXzGAHq8TQ4Fs17）
MOODCAST_MODEL（可选）- 默认模型 ID（默认为 eleven_v3）
MOODCAST_OUTPUT_FORMAT（可选）- 默认输出格式（默认为 mp3_44100_128）
MOODCAST_AUTO_AMBIENT（可选）- 设置为 "true" 可在使用 --mood 时自动添加环境音

配置优先级： 命令行参数 > 环境变量 > 硬编码默认值。

技术说明

使用 ElevenLabs Eleven v3 模型以支持音频标签
使用音效 API 生成环境音（最长 30 秒）
免费额度：每月 10,000 积分（约 10 分钟音频）
每个文本块最多 2,400 个字符（v3 支持 5,000，但为可靠性起见进行保守分割）
音频标签必须小写：使用 [whispers]，而非 [WHISPERS]

最佳实践建议

戏剧性内容效果最佳——故事、新闻、剧本
较短的段落（500 字符以内）听起来更自然
结合环境音以获得沉浸式体验
Roger 和 Rachel 语音在 v3 模型下表现力最强

致谢

由 ashutosh887 构建
使用 ElevenLabs 文本转语音 v3 + 音效 API
为 #ClawdEleven 黑客松创建

技能包地址：https://github.com/openclaw/skills/tree/main/skills/ashutosh887/moodcast/SKILL.md

68 次点击 ∙ 0 人收藏

登录后收藏

0 条回复