OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  mlx-audio-server:基于 Apple Silicon 的极速、精准、完全本地化的语音 API

mlx-audio-server:基于 Apple Silicon 的极速、精准、完全本地化的语音 API

 
  atom ·  2026-02-04 14:41:20 · 22 次点击  · 0 条评论  

名称: mlx-audio-server
描述: 基于 Mac 上 MLX 的本地 24x7 OpenAI 兼容 API 服务器,用于语音识别(STT)和语音合成(TTS)。
元数据: {"openclaw":{"always":true,"emoji":"🦞","homepage":"https://github.com/guoqiao/skills/blob/main/mlx-audio-server/mlx-audio-server/SKILL.md","os":["darwin"],"requires":{"bins":["brew"]}}}


MLX Audio Server

基于 Mac 上 MLX 的本地 24x7 OpenAI 兼容 API 服务器,用于语音识别(STT)和语音合成(TTS)。

mlx-audio: 基于苹果 MLX 框架构建的最佳音频处理库,可在 Apple Silicon 上提供快速高效的文本转语音(TTS)、语音转文本(STT)和语音转语音(STS)功能。

guoqiao/tap/mlx-audio-server: 用于通过 brew 安装 mlx-audio 的 Homebrew Formula,并在 macOS 上以 LaunchAgent 服务形式运行 mlx_audio.server

系统要求

  • mlx: 配备 Apple Silicon 的 macOS
  • brew: 用于在缺失时安装依赖项

安装

bash ${baseDir}/install.sh

此脚本将执行以下操作:
- 如果缺失,通过 brew 安装 ffmpeg/jq。
- 从 guoqiao/tap 安装 homebrew formula mlx-audio-server
- 启动 mlx-audio-server 的 brew 服务

使用方法

STT/语音转文本(默认模型:mlx-community/glm-asr-nano-2512-8bit):

# 如果输入文件不是 wav 格式,将使用 ffmpeg 进行转换。
# 输出仅为转录文本。
bash ${baseDir}/run_stt.sh <音频或视频文件路径>

TTS/文本转语音(默认模型:mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16):

# 音频将保存到临时目录,默认文件名为 `speech.wav`,并输出到标准输出。
bash ${baseDir}/run_tts.sh "你好,人类!"
# 或者,您可以指定输出目录
bash ${baseDir}/run_tts.sh "你好,人类!" ./output
# 输出仅为音频文件路径。

您可以直接使用这两个脚本,或将其作为示例/参考。

22 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 20 ms
Developed with Cursor