全球首例大规模混合架构推理模型 festivities:MiniMax-M1 开源亮相
发布时间:2025-06-17 10:37:13 | 责任编辑:张毅 | 浏览量:6 次
近日,MiniMax公司宣布推出其全新模型MiniMax-M1,该模型作为世界上首个开源的大规模混合架构推理模型,在面向生产力的复杂场景中展现出了卓越性能,成为开源模型中的佼佼者。MiniMax-M1不仅超越了国内闭源模型,还接近了海外最领先模型的水平,同时保持着业内最高的性价比。
MiniMax-M1的一个显著特点是支持高达100万的上下文输入,与闭源模型Google Gemini2.5Pro相当,是DeepSeek R1的8倍,并且能够输出长达8万Token的推理结果。这一成就得益于MiniMax独创的以闪电注意力机制为主的混合架构,使得在处理长上下文输入和深度推理时效率显著提升。例如,在使用8万Token进行深度推理时,MiniMax-M1仅需DeepSeek R1约30%的算力,从而在训练和推理过程中都具有算力效率优势。
此外,MiniMax还提出了更快的强化学习算法CISPO,通过裁剪重要性采样权重来提升强化学习效率。在AIME的实验中,CISPO算法的收敛性能比包括字节近期提出的DAPO在内的其他强化学习算法快了一倍,显著优于DeepSeek早期使用的GRPO算法。这些技术创新使得MiniMax-M1的强化训练过程异常高效,仅用了512块H800三周的时间,租赁成本也大幅降低,比预期少了一个数量级。
在评测方面,MiniMax-M1在业内主流的17个评测集上均取得了优异成绩。特别是在软件工程、长上下文与工具使用等面向生产力的复杂场景中,MiniMax-M1展现出了显著优势。例如,在SWE-bench验证基准上,MiniMax-M1-40k和MiniMax-M1-80k分别取得了55.6%和56.0%的成绩,虽然略逊于DeepSeek-R1-0528的57.6%,但显著超越了其他开源权重模型。同时,依托其百万级上下文窗口,MiniMax-M1在长上下文理解任务中表现卓越,超越了所有开源权重模型,甚至在某些方面超越了OpenAI o3和Claude4Opus,全球排名第二。
值得一提的是,MiniMax-M1在代理工具使用场景(TAU-bench)中也同样领跑所有开源权重模型,并战胜了Gemini-2.5Pro。此外,MiniMax-M1-80k在大多数基准测试中始终优于MiniMax-M1-40k,这充分验证了扩展测试时计算资源的有效性。
在价格方面,MiniMax-M1保持了业内最低的价格。在MiniMax APP和Web上,用户可以不限量免费使用该模型,并通过官网以极具竞争力的价格购买API服务。这一举措无疑将进一步推动MiniMax-M1在市场上的普及和应用。
MiniMax-M1-40k:huggingface.co/MiniMaxAI/MiniMax-M1-40k
MiniMax-M1-80k:huggingface.co/MiniMaxAI/MiniMax-M1-80k
MiniMax-M1 是全球首个开源的大规模混合架构推理模型,具有以下特点和优势:
技术架构
-
混合架构设计:MiniMax-M1 采用了混合专家架构(MoE)与闪电注意力机制(Lightning Attention)相结合的设计。这种架构在处理长上下文和复杂推理任务时表现出色,能够显著提升计算效率。
-
长上下文处理能力:该模型支持最高 100 万 Token 的上下文输入,与 Google Gemini 2.5 Pro 相当,是 DeepSeek R1 的 8 倍。同时,它能够输出长达 8 万 Token 的推理结果,这在目前的模型中是最长的。
-
高效的推理效率:在深度推理 8 万 Token 的任务中,MiniMax-M1 的算力需求仅为 DeepSeek R1 的 30%,推理算力在生成 10 万 Token 时也只需要 DeepSeek R1 的 25%。
训练与性能
-
创新的强化学习算法:MiniMax 提出了 CISPO 算法,通过优化重要性采样权重,极大地提升了强化学习的训练效率。在 AIME 实验中,CISPO 算法的收敛速度比字节跳动的 DAPO 快一倍,优于 DeepSeek 早期使用的 GRPO 算法。
-
高效的训练成本:MiniMax-M1 的强化训练阶段仅使用 512 块 H800 GPU 训练三周,租赁成本控制在 53.74 万美元,远低于业内普遍成本。
-
卓越的性能表现:在多个基准测试中,MiniMax-M1 在软件工程、长上下文理解和工具使用等复杂任务中表现出色,甚至在某些方面超越了 OpenAI o3 和 Claude 4 Opus。在 SWE-bench 基准测试中,MiniMax-M1-40k 和 MiniMax-M1-80k 分别取得了 55.6% 和 56.0% 的高分。
应用与成本
-
免费使用与低价 API:MiniMax-M1 在其 APP 和 Web 端提供不限量免费使用,并推出业内低价的 API 服务。例如,0-32k 输入长度下的输入价格为 0.8 元/百万 Token,输出 8 元/百万 Token。
-
开源与可扩展性:MiniMax-M1 的模型权重已在 Hugging Face 上公开,用户可以下载并进行二次开发。
MiniMax-M1 的发布标志着开源模型在大规模混合架构推理领域迈出了重要一步,其强大的性能和高效的推理能力使其在复杂生产力场景中具有广泛的应用前景。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。