名称: gemini-stt
描述: 使用 Google Gemini API 或 Vertex AI 转录音频文件
元数据: {"clawdbot":{"emoji":"🎤","os":["linux","darwin"]}}
使用 Google Gemini API 或 Vertex AI 转录音频文件。默认模型为 gemini-2.0-flash-lite,以获得最快的转录速度。
gcloud auth application-default login
gcloud config set project 你的项目ID
脚本会自动检测并使用可用的应用默认凭据。
在环境变量中设置 GEMINI_API_KEY(例如,在 ~/.env 或 ~/.clawdbot/.env 文件中)
GEMINI_API_KEY 或带有应用默认凭据的 gcloud CLI.ogg / .opus(Telegram 语音消息).mp3.wav.m4a# 自动检测身份验证(先尝试应用默认凭据,再尝试 GEMINI_API_KEY)
python ~/.claude/skills/gemini-stt/transcribe.py /路径/到/音频.ogg
# 强制使用 Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /路径/到/音频.ogg --vertex
# 指定特定模型
python ~/.claude/skills/gemini-stt/transcribe.py /路径/到/音频.ogg --model gemini-2.5-pro
# 使用特定项目和区域的 Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /路径/到/音频.ogg --vertex --project 我的项目 --region us-central1
# 配合 Clawdbot 媒体文件使用
python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg
| 选项 | 描述 |
|---|---|
<audio_file> |
音频文件路径(必需) |
--model, -m |
使用的 Gemini 模型(默认:gemini-2.0-flash-lite) |
--vertex, -v |
强制使用带应用默认凭据的 Vertex AI |
--project, -p |
GCP 项目 ID(用于 Vertex,默认使用 gcloud 配置) |
--region, -r |
GCP 区域(用于 Vertex,默认:us-central1) |
任何支持音频输入的 Gemini 模型均可使用。推荐模型:
| 模型 | 说明 |
|---|---|
gemini-2.0-flash-lite |
默认模型。 转录速度最快。 |
gemini-2.0-flash |
快速且性价比高。 |
gemini-2.5-flash-lite |
轻量级 2.5 模型。 |
gemini-2.5-flash |
速度与质量均衡。 |
gemini-2.5-pro |
质量更高,速度较慢。 |
gemini-3-flash-preview |
最新的 Flash 模型。 |
gemini-3-pro-preview |
最新的 Pro 模型,质量最佳。 |
查看 Gemini API 模型 获取最新列表。
GEMINI_API_KEY 和直接的 Gemini API用于 Clawdbot 语音消息处理:
# 转录传入的语音消息
TRANSCRIPT=$(python ~/.claude/skills/gemini-stt/transcribe.py "$AUDIO_PATH")
echo "用户说:$TRANSCRIPT"
在以下情况下,脚本将以代码 1 退出并打印错误信息到 stderr:
* 无可用身份验证(既无应用默认凭据也无 GEMINI_API_KEY)
* 文件未找到
* API 错误
* 使用 Vertex 时缺少 GCP 项目