名称: mlx-audio-server
描述: 基于 Mac 上 MLX 的本地 24x7 OpenAI 兼容 API 服务器,用于语音识别(STT)和语音合成(TTS)。
元数据: {"openclaw":{"always":true,"emoji":"🦞","homepage":"https://github.com/guoqiao/skills/blob/main/mlx-audio-server/mlx-audio-server/SKILL.md","os":["darwin"],"requires":{"bins":["brew"]}}}
基于 Mac 上 MLX 的本地 24x7 OpenAI 兼容 API 服务器,用于语音识别(STT)和语音合成(TTS)。
mlx-audio: 基于苹果 MLX 框架构建的最佳音频处理库,可在 Apple Silicon 上提供快速高效的文本转语音(TTS)、语音转文本(STT)和语音转语音(STS)功能。
guoqiao/tap/mlx-audio-server: 用于通过 brew 安装 mlx-audio 的 Homebrew Formula,并在 macOS 上以 LaunchAgent 服务形式运行 mlx_audio.server。
mlx: 配备 Apple Silicon 的 macOSbrew: 用于在缺失时安装依赖项bash ${baseDir}/install.sh
此脚本将执行以下操作:
- 如果缺失,通过 brew 安装 ffmpeg/jq。
- 从 guoqiao/tap 安装 homebrew formula mlx-audio-server
- 启动 mlx-audio-server 的 brew 服务
STT/语音转文本(默认模型:mlx-community/glm-asr-nano-2512-8bit):
# 如果输入文件不是 wav 格式,将使用 ffmpeg 进行转换。
# 输出仅为转录文本。
bash ${baseDir}/run_stt.sh <音频或视频文件路径>
TTS/文本转语音(默认模型:mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16):
# 音频将保存到临时目录,默认文件名为 `speech.wav`,并输出到标准输出。
bash ${baseDir}/run_tts.sh "你好,人类!"
# 或者,您可以指定输出目录
bash ${baseDir}/run_tts.sh "你好,人类!" ./output
# 输出仅为音频文件路径。
您可以直接使用这两个脚本,或将其作为示例/参考。