OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 技能包 › elevenlabs-transcribe：使用 ElevenLabs 高效将音频转录为文本

elevenlabs-transcribe：使用 ElevenLabs 高效将音频转录为文本

fish · 2026-02-05 22:06:24 · 65 次点击 · 0 条评论

名称： elevenlabs-transcribe
描述： 使用 ElevenLabs Scribe 将音频转录为文本。支持批量转录、URL实时流式传输、麦克风输入和本地文件。
主页： https://elevenlabs.io/speech-to-text
元数据： {"clawdbot":{"emoji":"🎙️","requires":{"bins":["ffmpeg","python3"],"env":["ELEVENLABS_API_KEY"]},"primaryEnv":"ELEVENLABS_API_KEY"}}

ElevenLabs 语音转文本

官方 ElevenLabs 语音转文本技能。

以业界领先的准确率将音频转换为文本。支持 90 多种语言、说话人分离和实时流式传输。

先决条件

已安装 ffmpeg（在 macOS 上使用 brew install ffmpeg）
已设置 ELEVENLABS_API_KEY 环境变量
Python 3.8+（依赖项在首次运行时自动安装）

使用方法

{baseDir}/scripts/transcribe.sh <音频文件> [选项]
{baseDir}/scripts/transcribe.sh --url <流媒体URL> [选项]
{baseDir}/scripts/transcribe.sh --mic [选项]

示例

批量转录

转录本地音频文件：

{baseDir}/scripts/transcribe.sh recording.mp3

启用说话人识别：

{baseDir}/scripts/transcribe.sh meeting.mp3 --diarize

获取包含时间戳的完整 JSON 响应：

{baseDir}/scripts/transcribe.sh interview.wav --diarize --json

实时流式传输

从 URL 流式传输（例如，直播电台、播客）：

{baseDir}/scripts/transcribe.sh --url https://npr-ice.streamguys1.com/live.mp3

从麦克风转录：

{baseDir}/scripts/transcribe.sh --mic

实时流式传输本地文件（用于测试）：

{baseDir}/scripts/transcribe.sh audio.mp3 --realtime

代理静默模式

抑制 stderr 上的状态消息：

{baseDir}/scripts/transcribe.sh --mic --quiet

选项

选项	描述
`--diarize`	识别音频中的不同说话人
`--lang CODE`	ISO 语言提示（例如 `en`、`pt`、`es`、`fr`）
`--json`	输出包含时间戳和元数据的完整 JSON
`--events`	标记音频事件（笑声、音乐、掌声）
`--realtime`	流式传输本地文件而非批量处理
`--partials`	在实时模式下显示中间转录结果
`-q, --quiet`	抑制状态消息（推荐用于代理）

输出格式

文本模式（默认）

纯文本转录：

The quick brown fox jumps over the lazy dog.

JSON 模式 (`--json`)

{
  "text": "The quick brown fox jumps over the lazy dog.",
  "language_code": "eng",
  "language_probability": 0.98,
  "words": [
    {"text": "The", "start": 0.0, "end": 0.15, "type": "word", "speaker_id": "speaker_0"}
  ]
}

实时模式

最终转录结果在确认时打印。使用 --partials 时：

[partial] The quick
[partial] The quick brown fox
The quick brown fox jumps over the lazy dog.

支持的格式

音频： MP3, WAV, M4A, FLAC, OGG, WebM, AAC, AIFF, Opus
视频： MP4, AVI, MKV, MOV, WMV, FLV, WebM, MPEG, 3GPP

限制： 文件大小最高 3GB，时长最长 10 小时

错误处理

脚本在出错时以非零状态退出：

缺少 API 密钥： 设置 ELEVENLABS_API_KEY 环境变量
文件未找到： 检查文件路径是否存在
缺少 ffmpeg： 使用包管理器安装
API 错误： 检查 API 密钥有效性和速率限制

各模式适用场景

场景	命令
转录录音文件	`./transcribe.sh file.mp3`
多人会议录音	`./transcribe.sh meeting.mp3 --diarize`
直播电台/播客流	`./transcribe.sh --url <url>`
用户语音输入	`./transcribe.sh --mic --quiet`
需要单词时间戳	`./transcribe.sh file.mp3 --json`

技能包地址：https://github.com/openclaw/skills/tree/main/skills/paulasjes/elevenlabs-transcribe/SKILL.md

65 次点击 ∙ 0 人收藏

登录后收藏

0 条回复