名称: elevenlabs-transcribe
描述: 使用 ElevenLabs Scribe 将音频转录为文本。支持批量转录、URL实时流式传输、麦克风输入和本地文件。
主页: https://elevenlabs.io/speech-to-text
元数据: {"clawdbot":{"emoji":"🎙️","requires":{"bins":["ffmpeg","python3"],"env":["ELEVENLABS_API_KEY"]},"primaryEnv":"ELEVENLABS_API_KEY"}}
官方 ElevenLabs 语音转文本技能。
以业界领先的准确率将音频转换为文本。支持 90 多种语言、说话人分离和实时流式传输。
brew install ffmpeg){baseDir}/scripts/transcribe.sh <音频文件> [选项]
{baseDir}/scripts/transcribe.sh --url <流媒体URL> [选项]
{baseDir}/scripts/transcribe.sh --mic [选项]
转录本地音频文件:
{baseDir}/scripts/transcribe.sh recording.mp3
启用说话人识别:
{baseDir}/scripts/transcribe.sh meeting.mp3 --diarize
获取包含时间戳的完整 JSON 响应:
{baseDir}/scripts/transcribe.sh interview.wav --diarize --json
从 URL 流式传输(例如,直播电台、播客):
{baseDir}/scripts/transcribe.sh --url https://npr-ice.streamguys1.com/live.mp3
从麦克风转录:
{baseDir}/scripts/transcribe.sh --mic
实时流式传输本地文件(用于测试):
{baseDir}/scripts/transcribe.sh audio.mp3 --realtime
抑制 stderr 上的状态消息:
{baseDir}/scripts/transcribe.sh --mic --quiet
| 选项 | 描述 |
|---|---|
--diarize |
识别音频中的不同说话人 |
--lang CODE |
ISO 语言提示(例如 en、pt、es、fr) |
--json |
输出包含时间戳和元数据的完整 JSON |
--events |
标记音频事件(笑声、音乐、掌声) |
--realtime |
流式传输本地文件而非批量处理 |
--partials |
在实时模式下显示中间转录结果 |
-q, --quiet |
抑制状态消息(推荐用于代理) |
纯文本转录:
The quick brown fox jumps over the lazy dog.
--json){
"text": "The quick brown fox jumps over the lazy dog.",
"language_code": "eng",
"language_probability": 0.98,
"words": [
{"text": "The", "start": 0.0, "end": 0.15, "type": "word", "speaker_id": "speaker_0"}
]
}
最终转录结果在确认时打印。使用 --partials 时:
[partial] The quick
[partial] The quick brown fox
The quick brown fox jumps over the lazy dog.
音频: MP3, WAV, M4A, FLAC, OGG, WebM, AAC, AIFF, Opus
视频: MP4, AVI, MKV, MOV, WMV, FLV, WebM, MPEG, 3GPP
限制: 文件大小最高 3GB,时长最长 10 小时
脚本在出错时以非零状态退出:
ELEVENLABS_API_KEY 环境变量| 场景 | 命令 |
|---|---|
| 转录录音文件 | ./transcribe.sh file.mp3 |
| 多人会议录音 | ./transcribe.sh meeting.mp3 --diarize |
| 直播电台/播客流 | ./transcribe.sh --url <url> |
| 用户语音输入 | ./transcribe.sh --mic --quiet |
| 需要单词时间戳 | ./transcribe.sh file.mp3 --json |