名称: parakeet-stt
描述: >-
使用 NVIDIA Parakeet TDT 0.6B v3 进行本地语音转文本(基于 CPU 的 ONNX 运行时)。
比 Whisper 快约 30 倍,支持 25 种语言,自动检测语言,提供 OpenAI 兼容的 API。
适用于转录音频文件、将语音转换为文本,或在本地处理录音而无需调用云端 API。
主页: https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai
元数据: {"clawdbot":{"emoji":"🦜","env":["PARAKEET_URL"]}}
使用 NVIDIA Parakeet TDT 0.6B v3 与 ONNX 运行时进行本地转录。
仅需 CPU 即可运行,无需 GPU。速度约为实时音频的 30 倍。
# 克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai
# 使用 Docker 运行(推荐)
docker compose up -d parakeet-cpu
# 或直接使用 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000
默认端口为 5000。可通过设置 PARAKEET_URL 环境变量来覆盖(例如:http://localhost:5092)。
提供 OpenAI 兼容的 API,地址为 $PARAKEET_URL(默认:http://localhost:5000)。
# 转录音频文件(纯文本)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=text"
# 获取时间戳和分段信息
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=verbose_json"
# 生成字幕文件(SRT 格式)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
-F "file=@/path/to/audio.mp3" \
-F "response_format=srt"
import os
from openai import OpenAI
client = OpenAI(
base_url=os.getenv("PARAKEET_URL", "http://localhost:5000") + "/v1",
api_key="not-needed"
)
with open("audio.mp3", "rb") as f:
transcript = client.audio.transcriptions.create(
model="parakeet-tdt-0.6b-v3",
file=f,
response_format="text"
)
print(transcript)
| 格式 | 输出内容 |
|---|---|
text |
纯文本 |
json |
{"text": "..."} |
verbose_json |
包含时间戳和单词的分段信息 |
srt |
SRT 字幕文件 |
vtt |
WebVTT 字幕文件 |
英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、俄语、
乌克兰语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、捷克语、
罗马尼亚语、匈牙利语、保加利亚语、斯洛伐克语、克罗地亚语、立陶宛语、
拉脱维亚语、爱沙尼亚语、斯洛文尼亚语
语言自动检测,无需额外配置。
在浏览器中打开 $PARAKEET_URL,可使用拖放式转录界面。
# 检查状态
docker ps --filter "name=parakeet"
# 查看日志
docker logs -f <容器名称>
# 重启服务
docker compose restart
# 停止服务
docker compose down