OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  parakeet-stt:高性能 Parakeet 本地语音转文本助手

parakeet-stt:高性能 Parakeet 本地语音转文本助手

 
  admin ·  2026-02-06 00:39:46 · 3 次点击  · 0 条评论  

名称: parakeet-stt
描述: >-
使用 NVIDIA Parakeet TDT 0.6B v3 进行本地语音转文本(基于 CPU 的 ONNX 运行时)。
比 Whisper 快约 30 倍,支持 25 种语言,自动检测语言,提供 OpenAI 兼容的 API。
适用于转录音频文件、将语音转换为文本,或在本地处理录音而无需调用云端 API。
主页: https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai
元数据: {"clawdbot":{"emoji":"🦜","env":["PARAKEET_URL"]}}


Parakeet TDT(语音转文本)

使用 NVIDIA Parakeet TDT 0.6B v3 与 ONNX 运行时进行本地转录。
仅需 CPU 即可运行,无需 GPU。速度约为实时音频的 30 倍。

安装

# 克隆仓库
git clone https://github.com/groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai.git
cd parakeet-tdt-0.6b-v3-fastapi-openai

# 使用 Docker 运行(推荐)
docker compose up -d parakeet-cpu

# 或直接使用 Python 运行
pip install -r requirements.txt
uvicorn app.main:app --host 0.0.0.0 --port 5000

默认端口为 5000。可通过设置 PARAKEET_URL 环境变量来覆盖(例如:http://localhost:5092)。

API 端点

提供 OpenAI 兼容的 API,地址为 $PARAKEET_URL(默认:http://localhost:5000)。

快速开始

# 转录音频文件(纯文本)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=text"

# 获取时间戳和分段信息
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=verbose_json"

# 生成字幕文件(SRT 格式)
curl -X POST $PARAKEET_URL/v1/audio/transcriptions \
  -F "file=@/path/to/audio.mp3" \
  -F "response_format=srt"

Python / OpenAI SDK

import os
from openai import OpenAI

client = OpenAI(
    base_url=os.getenv("PARAKEET_URL", "http://localhost:5000") + "/v1",
    api_key="not-needed"
)

with open("audio.mp3", "rb") as f:
    transcript = client.audio.transcriptions.create(
        model="parakeet-tdt-0.6b-v3",
        file=f,
        response_format="text"
    )
print(transcript)

响应格式

格式 输出内容
text 纯文本
json {"text": "..."}
verbose_json 包含时间戳和单词的分段信息
srt SRT 字幕文件
vtt WebVTT 字幕文件

支持的语言(25 种)

英语、西班牙语、法语、德语、意大利语、葡萄牙语、波兰语、俄语、
乌克兰语、荷兰语、瑞典语、丹麦语、芬兰语、挪威语、希腊语、捷克语、
罗马尼亚语、匈牙利语、保加利亚语、斯洛伐克语、克罗地亚语、立陶宛语、
拉脱维亚语、爱沙尼亚语、斯洛文尼亚语

语言自动检测,无需额外配置。

Web 界面

在浏览器中打开 $PARAKEET_URL,可使用拖放式转录界面。

Docker 管理

# 检查状态
docker ps --filter "name=parakeet"

# 查看日志
docker logs -f <容器名称>

# 重启服务
docker compose restart

# 停止服务
docker compose down

为何选择 Parakeet 而非 Whisper?

  • 速度:在 CPU 上运行,速度约为实时音频的 30 倍
  • 准确度:与 Whisper large-v3 相当
  • 隐私性:100% 本地运行,无需云端调用
  • 兼容性:可作为 OpenAI 转录 API 的直接替代品
3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor