mlx-audio-server：基于 Apple Silicon 的极速、精准、完全本地化的语音 API

atom · 2026-02-04 14:41:20 · 53 次点击 · 0 条评论

名称： mlx-audio-server
描述： 基于 Mac 上 MLX 的本地 24x7 OpenAI 兼容 API 服务器，用于语音识别（STT）和语音合成（TTS）。
元数据： {"openclaw":{"always":true,"emoji":"🦞","homepage":"https://github.com/guoqiao/skills/blob/main/mlx-audio-server/mlx-audio-server/SKILL.md","os":["darwin"],"requires":{"bins":["brew"]}}}

MLX Audio Server

基于 Mac 上 MLX 的本地 24x7 OpenAI 兼容 API 服务器，用于语音识别（STT）和语音合成（TTS）。

mlx-audio: 基于苹果 MLX 框架构建的最佳音频处理库，可在 Apple Silicon 上提供快速高效的文本转语音（TTS）、语音转文本（STT）和语音转语音（STS）功能。

guoqiao/tap/mlx-audio-server: 用于通过 brew 安装 mlx-audio 的 Homebrew Formula，并在 macOS 上以 LaunchAgent 服务形式运行 mlx_audio.server。

系统要求

mlx: 配备 Apple Silicon 的 macOS
brew: 用于在缺失时安装依赖项

安装

bash ${baseDir}/install.sh

此脚本将执行以下操作：
- 如果缺失，通过 brew 安装 ffmpeg/jq。
- 从 guoqiao/tap 安装 homebrew formula mlx-audio-server
- 启动 mlx-audio-server 的 brew 服务

使用方法

STT/语音转文本（默认模型：mlx-community/glm-asr-nano-2512-8bit）：

# 如果输入文件不是 wav 格式，将使用 ffmpeg 进行转换。
# 输出仅为转录文本。
bash ${baseDir}/run_stt.sh <音频或视频文件路径>

TTS/文本转语音（默认模型：mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16）：

# 音频将保存到临时目录，默认文件名为 `speech.wav`，并输出到标准输出。
bash ${baseDir}/run_tts.sh "你好，人类！"
# 或者，您可以指定输出目录
bash ${baseDir}/run_tts.sh "你好，人类！" ./output
# 输出仅为音频文件路径。

您可以直接使用这两个脚本，或将其作为示例/参考。

技能包地址：https://github.com/openclaw/skills/tree/main/skills/guoqiao/mlx-audio-server/SKILL.md

53 次点击 ∙ 0 人收藏

登录后收藏

0 条回复