📰 事件概述
中国初创公司 MiniMax 本周发布了其最新的 AI 推理模型 MiniMax-M1,宣称该模型在处理生产力复杂场景方面超过了国内的 DeepSeek-R1 模型,并接近海外最领先的模型。
🔍 技术亮点
- 上下文窗口:MiniMax-M1 支持最高 100 万 token 的输入上下文,是 DeepSeek-R1 的八倍。
- 计算效率:在处理 8 万 token 的深度推理时,MiniMax-M1 仅使用 DeepSeek-R1 约 30% 的算力。
- 训练成本:整个强化学习阶段使用了 512 块英伟达 H800 芯片,训练时间为三周,租赁成本为 53.74 万美元。
- 模型架构:采用混合专家(MoE)架构结合 Lightning Attention 机制,具有 4560 亿参数,每个 token 激活 45.9 亿参数。
🧪 性能对比
在标准基准测试中,MiniMax-M1 的表现与 DeepSeek-R1 和 Qwen3-235B 等强大的开源模型相当或更优,特别在复杂的软件工程、工具利用和长上下文任务中表现突出。
🔗 参考链接