ai-video-gen：端到端 AI 视频生成 —— 实现文本到视频的创作

dock · 2026-02-03 17:30:51 · 60 次点击 · 0 条评论

名称： ai-video-gen
描述： 端到端 AI 视频生成 - 利用图像生成、视频合成、语音旁白和编辑技术，从文本提示创建视频。支持 OpenAI DALL-E、Replicate 模型、LumaAI、Runway 和 FFmpeg 编辑。

AI 视频生成技能

使用 AI 从文本描述生成完整视频。

核心功能

图像生成 - DALL-E 3、Stable Diffusion、Flux
视频生成 - LumaAI、Runway、Replicate 模型
语音旁白 - OpenAI TTS、ElevenLabs
视频编辑 - FFmpeg 组装、转场、叠加

快速开始

# 生成一个完整视频
python skills/ai-video-gen/generate_video.py --prompt "山间日落" --output sunset.mp4

# 仅将图像转为视频
python skills/ai-video-gen/images_to_video.py --images img1.png img2.png --output result.mp4

# 添加语音旁白
python skills/ai-video-gen/add_voiceover.py --video input.mp4 --text "你的旁白内容" --output final.mp4

环境配置

必需的 API 密钥

添加到你的环境变量或 .env 文件中：

# 图像生成 (选择其一)
OPENAI_API_KEY=sk-...              # DALL-E 3
REPLICATE_API_TOKEN=r8_...         # Stable Diffusion, Flux

# 视频生成 (选择其一)
LUMAAI_API_KEY=luma_...           # LumaAI Dream Machine
RUNWAY_API_KEY=...                # Runway ML
REPLICATE_API_TOKEN=r8_...        # 多种模型

# 语音 (可选)
OPENAI_API_KEY=sk-...             # OpenAI TTS
ELEVENLABS_API_KEY=...            # ElevenLabs

# 或使用免费的本地选项 (无需 API 密钥)

安装依赖

pip install openai requests pillow replicate python-dotenv

FFmpeg

已通过 winget 安装。

使用示例

1. 文本转视频 (完整流程)

python skills/ai-video-gen/generate_video.py \
  --prompt "夜晚的未来城市，有飞行汽车" \
  --duration 5 \
  --voiceover "欢迎来到未来" \
  --output future_city.mp4

2. 多场景视频

python skills/ai-video-gen/multi_scene.py \
  --scenes "清晨日出" "繁忙的城市街道" "宁静的夜晚" \
  --duration 3 \
  --output day_in_life.mp4

3. 图像序列转视频

python skills/ai-video-gen/images_to_video.py \
  --images frame1.png frame2.png frame3.png \
  --fps 24 \
  --output animation.mp4

工作流选项

经济模式 (免费)

图像：Stable Diffusion (本地或免费 API)
视频：开源模型
语音：OpenAI TTS (低成本) 或免费 TTS
编辑：FFmpeg

品质模式 (付费)

图像：DALL-E 3 或 Midjourney
视频：Runway Gen-3 或 LumaAI
语音：ElevenLabs
编辑：FFmpeg + 特效

脚本参考

generate_video.py - 主要的端到端生成器
images_to_video.py - 将图像序列转换为视频
add_voiceover.py - 为现有视频添加旁白
multi_scene.py - 创建多场景视频
edit_video.py - 应用特效、转场、叠加

API 成本估算

DALL-E 3：约 $0.04-0.08 / 图像
Replicate：约 $0.01-0.10 / 生成
LumaAI：$0-0.50 / 5秒 (提供免费额度)
Runway：约 $0.05 / 秒
OpenAI TTS：约 $0.015 / 千字符
ElevenLabs：约 $0.30 / 千字符 (品质更佳)

示例

查看 examples/ 文件夹中的示例输出和提示词。

技能包地址：https://github.com/openclaw/skills/tree/main/skills/rhanbourinajd/ai-video-gen/SKILL.md

60 次点击 ∙ 0 人收藏

登录后收藏

0 条回复