OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  elevenlabs-transcribe:使用 ElevenLabs 高效将音频转录为文本

elevenlabs-transcribe:使用 ElevenLabs 高效将音频转录为文本

 
  versioning ·  2026-02-05 22:06:24 · 3 次点击  · 0 条评论  

名称: elevenlabs-transcribe
描述: 使用 ElevenLabs Scribe 将音频转录为文本。支持批量转录、URL实时流式传输、麦克风输入和本地文件。
主页: https://elevenlabs.io/speech-to-text
元数据: {"clawdbot":{"emoji":"🎙️","requires":{"bins":["ffmpeg","python3"],"env":["ELEVENLABS_API_KEY"]},"primaryEnv":"ELEVENLABS_API_KEY"}}


ElevenLabs 语音转文本

官方 ElevenLabs 语音转文本技能。

以业界领先的准确率将音频转换为文本。支持 90 多种语言、说话人分离和实时流式传输。

先决条件

  • 已安装 ffmpeg(在 macOS 上使用 brew install ffmpeg
  • 已设置 ELEVENLABS_API_KEY 环境变量
  • Python 3.8+(依赖项在首次运行时自动安装)

使用方法

{baseDir}/scripts/transcribe.sh <音频文件> [选项]
{baseDir}/scripts/transcribe.sh --url <流媒体URL> [选项]
{baseDir}/scripts/transcribe.sh --mic [选项]

示例

批量转录

转录本地音频文件:

{baseDir}/scripts/transcribe.sh recording.mp3

启用说话人识别:

{baseDir}/scripts/transcribe.sh meeting.mp3 --diarize

获取包含时间戳的完整 JSON 响应:

{baseDir}/scripts/transcribe.sh interview.wav --diarize --json

实时流式传输

从 URL 流式传输(例如,直播电台、播客):

{baseDir}/scripts/transcribe.sh --url https://npr-ice.streamguys1.com/live.mp3

从麦克风转录:

{baseDir}/scripts/transcribe.sh --mic

实时流式传输本地文件(用于测试):

{baseDir}/scripts/transcribe.sh audio.mp3 --realtime

代理静默模式

抑制 stderr 上的状态消息:

{baseDir}/scripts/transcribe.sh --mic --quiet

选项

选项 描述
--diarize 识别音频中的不同说话人
--lang CODE ISO 语言提示(例如 enptesfr
--json 输出包含时间戳和元数据的完整 JSON
--events 标记音频事件(笑声、音乐、掌声)
--realtime 流式传输本地文件而非批量处理
--partials 在实时模式下显示中间转录结果
-q, --quiet 抑制状态消息(推荐用于代理)

输出格式

文本模式(默认)

纯文本转录:

The quick brown fox jumps over the lazy dog.

JSON 模式 (--json)

{
  "text": "The quick brown fox jumps over the lazy dog.",
  "language_code": "eng",
  "language_probability": 0.98,
  "words": [
    {"text": "The", "start": 0.0, "end": 0.15, "type": "word", "speaker_id": "speaker_0"}
  ]
}

实时模式

最终转录结果在确认时打印。使用 --partials 时:

[partial] The quick
[partial] The quick brown fox
The quick brown fox jumps over the lazy dog.

支持的格式

音频: MP3, WAV, M4A, FLAC, OGG, WebM, AAC, AIFF, Opus
视频: MP4, AVI, MKV, MOV, WMV, FLV, WebM, MPEG, 3GPP

限制: 文件大小最高 3GB,时长最长 10 小时

错误处理

脚本在出错时以非零状态退出:

  • 缺少 API 密钥: 设置 ELEVENLABS_API_KEY 环境变量
  • 文件未找到: 检查文件路径是否存在
  • 缺少 ffmpeg: 使用包管理器安装
  • API 错误: 检查 API 密钥有效性和速率限制

各模式适用场景

场景 命令
转录录音文件 ./transcribe.sh file.mp3
多人会议录音 ./transcribe.sh meeting.mp3 --diarize
直播电台/播客流 ./transcribe.sh --url <url>
用户语音输入 ./transcribe.sh --mic --quiet
需要单词时间戳 ./transcribe.sh file.mp3 --json
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor