MiniMax 发布全球首例开放式混合架构模型 M1,显著削减训练费用!
发布时间:2025-06-18 10:32:54 | 责任编辑:张毅 | 浏览量:3 次
6月17日,上海的 AI 独角兽公司 MiniMax 发布了其全新研发的 MiniMax-M1系列模型,号称是全球首个开源的大规模混合架构推理模型。这个创新的模型在上下文处理能力和成本控制方面都取得了显著的突破。
MiniMax-M1模型的最大亮点在于其原生支持高达100万 Token 的上下文窗口,甚至在推理输出上支持业内最长的8万 Token。这一技术进步与谷歌的 Gemini2.5Pro 相当,同时在工具使用场景(TAU-bench)中,MiniMax-M1-40k 的表现超过了 Gemini-2.5Pro,展现了其强大的实力。此外,MiniMax 还表示,M1模型的强化训练成本仅为53.5万美元,相比以往减少了一个数量级。
在定价策略上,MiniMax 采用了阶梯式定价,随着输入文本长度的增加,费用也会相应提高。具体来说,0-32k Token 的输入费用为每百万 Token0.8元,而输出则为每百万 Token8元;32k-128k Token 则为1.2元和16元;128k-1M Token 的输入和输出费用分别为2.4元和24元。这一价格设置使得 MiniMax-M1在市场上更具竞争力,尤其是在前两个档位的定价上,均低于同类产品 DeepSeek-R1。
值得一提的是,MiniMax 此次还推出了 CISPO 算法,其收敛速度比字节跳动最近推出的 DAPO 算法快了一倍,强化学习阶段的算力需求仅为 DeepSeek R1的30%。这使得 MiniMax-M1模型的训练更加高效,使用的算力资源显著减少,进一步降低了运营成本。
在 AI 行业的 “六小虎” 竞争者面前,MiniMax 的这一发布标志着其希望在大模型的竞争中继续前行。随着 DeepSeek R2的即将推出,未来的市场局势将更加复杂。MiniMax 也在持续进行开源技术的更新,预计在接下来的日子里会有更多的技术和产品亮相。
6月17日,上海AI独角兽企业MiniMax正式发布了全球首个开源的大规模混合架构推理模型MiniMax-M1。以下是关于该模型的详细介绍:
模型特点
-
长文本处理能力:M1模型原生支持100万Token的上下文窗口,支持业内最长的8万Token推理输出,在处理复杂文档分析、长篇代码生成等任务方面具有显著优势。
-
混合架构设计:采用线性注意力机制混合构架,解决了传统Transformer模型在处理长序列时计算量呈平方级增长的问题,显著优化了长下文输入的计算效率。
-
强化学习算法创新:提出了CISPO算法,通过裁剪重要性采样权重而非传统token更新方式,提升强化学习效率和稳定性,收敛性能比字节跳动的DAPO算法快一倍。
成本优势
-
强化训练成本:仅53万美金,相比DeepSeek R1下降了一个量级。整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周。
-
推理算力成本:在进行8万Token的深度推理时,M1所需的算力仅为DeepSeek R1的约30%;生成10万Token时,推理算力只需要DeepSeek R1的25%。
定价策略
-
阶梯式定价:0-32k Token:输入0.8元/百万Token,输出8元/百万Token;32k-128k Token:输入1.2元/百万Token,输出16元/百万Token;128k-1M Token:输入2.4元/百万Token,输出24元/百万Token。
-
免费使用:在MiniMax自有的App和Web端,M1模型将保持不限量免费使用。
行业影响
-
技术开源:完整的M1模型权重和技术报告已在Hugging Face和GitHub上开放获取,这将推动整个AI行业的技术进步和创新。
-
竞争格局:M1的发布将倒逼更多模型厂商走向真正的技术驱动和价值创造,同时也为开发者和企业提供了一个高性能、低门槛的新选择。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。