2026 年 3 月 9 日,MiniMax 宣布将其 Speech 语音模型与 Music 音乐模型封装为 OpenClaw 技能(Skills),并正式上线至 OpenClaw 生态。通过这一整合,OpenClaw 智能体不再局限于文本回复,而是具备语音生成与音乐创作能力,进一步扩展为多模态 AI 助手。
此次接入主要通过 Clawhub 技能生态实现。用户在安装相关技能并配置 MiniMax API Key 后,即可在飞书、企业微信、钉钉等办公软件中使用语音回复功能。同时,系统支持 40 多种语言以及近 100 种预置音色,并提供自定义音色生成能力,使 AI 智能体可以拥有独特的语音形象。
MiniMax 将语音模型封装为 Voice Maker 技能,使 OpenClaw 智能体具备语音交互能力。
用户在 Clawhub 学习并加载该技能后,只需配置 MiniMax API Key,即可在飞书、企业微信、钉钉等办公平台中实现语音回复。AI 在收到文本指令后,可以直接返回语音消息,从而让智能体的沟通方式更加自然。
Voice Maker 内置丰富的语音资源,支持 40 多种语言以及近百种预置音色。这些音色覆盖不同性别、年龄以及语气风格,可用于客服、助手、播报等多种场景。
除了预设音色,系统还支持音色自定义。用户只需使用自然语言描述想要的声音效果,例如成熟稳重、活泼轻快或播客主持风格,AI 即可生成对应的语音形象,使智能体拥有更加个性化的声音表达。
在语音能力之外,MiniMax 还推出了 Music Maker 技能,为 OpenClaw 智能体提供音乐生成能力。
加载该技能后,AI 可以根据用户输入的描述自动生成音乐内容,包括流行歌曲、纯音乐、氛围音乐以及即兴哼唱 Demo 等。用户只需描述音乐的风格、情绪或主题,系统即可生成完整作品。
这种方式让 AI 不仅能够执行任务或进行对话,还可以参与内容创作,使智能体在创意类场景中发挥更大作用。
针对更专业的音乐创作需求,官方还推出了进阶技能 Music Expert。
该技能提供更精细化的音乐控制能力,支持对音乐段落、结构标签以及编曲结构进行调整。用户可以对作品进行更深入的编辑与优化,使 AI 在音乐制作流程中承担更多角色。
通过这些功能,AI 智能体能够像一支随时待命的虚拟乐队一样参与创作。
相关技能以压缩包形式提供,用户只需下载对应的 zip 文件并上传至 MaxClaw 对话界面,通过自然语言指令即可完成加载。
配置 MiniMax API Key 后,系统即可启用语音或音乐相关功能。整个流程无需复杂部署,基本实现即插即用。
随着 MiniMax 语音与音乐模型接入 OpenClaw,AI 智能体开始从单一的文本助手向多模态助手转变。
语音生成能力让 AI 在沟通方式上更加自然,而音乐创作能力则进一步拓展了智能体在内容创作领域的应用空间。结合 OpenClaw 的技能生态体系,更多模型能力可以通过插件形式接入,使 AI Agent 的能力持续扩展。
在这一模式下,办公软件中的智能体不再只是执行指令的工具,而是逐渐演变为具备表达能力与创造能力的数字助手。