parakeet-stt：高性能 Parakeet 本地语音转文本助手

benchmark · 2026-02-06 00:39:46 · 58 次点击 · 0 条评论

名称： parakeet-stt
描述： >-
使用 NVIDIA Parakeet TDT 0.6B v3 进行本地语音转文本（基于 CPU 的 ONNX 运行时）。
比 Whisper 快约 30 倍，支持 25 种语言，自动检测语言，提供 OpenAI 兼容的 API。
适用于转录音频文件、将语音转换为文本，或在本地处理录音而无需调用云端 API。
主页： https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai
元数据： {"clawdbot":{"emoji":"🦜","env":["PARAKEET_URL"]}}

Parakeet TDT（语音转文本）

使用 NVIDIA Parakeet TDT 0.6B v3 与 ONNX 运行时进行本地转录。
仅需 CPU 即可运行，无需 GPU。速度约为实时音频的 30 倍。

安装

# 克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai

# 使用 Docker 运行（推荐）
docker compose up -d parakeet-cpu

# 或直接使用 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000

默认端口为 5000。可通过设置 PARAKEET_URL 环境变量来覆盖（例如：http://localhost:5092）。

API 端点

提供 OpenAI 兼容的 API，地址为 $PARAKEET_URL（默认：http://localhost:5000）。

快速开始

# 转录音频文件（纯文本）
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=text"

# 获取时间戳和分段信息
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=verbose_json"

# 生成字幕文件（SRT 格式）
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=srt"

Python / OpenAI SDK

import os
from openai import OpenAI

client = OpenAI(
    base_url=os.getenv("PARAKEET_URL", "http://localhost:5000") + "/v1",
    api_key="not-needed"
)

with open("audio.mp3", "rb") as f:
    transcript = client.audio.transcriptions.create(
        model="parakeet-tdt-0.6b-v3",
        file=f,
        response_format="text"
    )
print(transcript)

响应格式

格式	输出内容
`text`	纯文本
`json`	`{"text": "..."}`
`verbose_json`	包含时间戳和单词的分段信息
`srt`	SRT 字幕文件
`vtt`	WebVTT 字幕文件

支持的语言（25 种）

英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、俄语、
乌克兰语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、捷克语、
罗马尼亚语、匈牙利语、保加利亚语、斯洛伐克语、克罗地亚语、立陶宛语、
拉脱维亚语、爱沙尼亚语、斯洛文尼亚语

语言自动检测，无需额外配置。

Web 界面

在浏览器中打开 $PARAKEET_URL，可使用拖放式转录界面。

Docker 管理

# 检查状态
docker ps --filter "name=parakeet"

# 查看日志
docker logs -f <容器名称>

# 重启服务
docker compose restart

# 停止服务
docker compose down

为何选择 Parakeet 而非 Whisper？

速度：在 CPU 上运行，速度约为实时音频的 30 倍
准确度：与 Whisper large-v3 相当
隐私性：100% 本地运行，无需云端调用
兼容性：可作为 OpenAI 转录 API 的直接替代品

技能包地址：https://github.com/openclaw/skills/tree/main/skills/carlulsoe/parakeet-stt/SKILL.md

58 次点击 ∙ 0 人收藏

登录后收藏

0 条回复