首页 > 快讯 > 全球首例开源大规模混合注意力推理模型 MiniMax-M1-80k 由硅基流动正式发布

全球首例开源大规模混合注意力推理模型 MiniMax-M1-80k 由硅基流动正式发布

发布时间:2025-06-17 17:13:27 | 责任编辑:张毅 | 浏览量:5 次

硅基流动(SiliconCloud)正式上线了全球首个开源的大规模混合注意力推理模型 ——MiniMax-M1-80k(456B)。这一创新模型旨在为软件工程、长上下文理解和工具使用等复杂任务提供强有力的支持,并且在性能上可与目前顶尖的模型如 o3和 Claude4Opus 相媲美。
据悉,MiniMax-M1-80k 具备最大支持128K 的上下文长度,这为处理长文本提供了极大的便利。对于有特殊需求的用户,平台还提供了后台支持,满足1M 的长上下文需求。使用该模型的价格为输入 ¥4每百万 Tokens,输出则为 ¥16每百万 Tokens。新用户在首次使用时还能享受到14元的体验赠金。
MiniMax-M1-80k 模型的研发基于 MiniMax-Text-01,采用了混合专家系统(MoE)架构和 Lightning Attention 机制,具备高效的强化学习扩展框架。这一设计使得模型不仅适用于传统的数学推理任务,还能够在真实的沙盒软件开发环境中发挥作用。因此,它成为了需要长文本处理与深度思考任务的理想选择。
在性能方面,MiniMax 的基准测试显示,该模型在生成10万 Tokens 时,FLOPs 消耗仅为 DeepSeek R1的25%,这意味着其推理算力的高效扩展。同时,MiniMax-M1-80k 在数学、编程、工具使用及长上下文理解等领域的评测结果都与 o3等顶尖模型不相上下。
SiliconCloud 作为一站式的大模型云服务平台,致力于为开发者提供优质的服务。除了 MiniMax-M1-80k,平台上还推出了多款优秀的模型,包括 DeepSeek-R1-0528、Qwen3、GLM-4系列等,极大丰富了开发者的选择。特别是 DeepSeek-R1的蒸馏版及其他多款模型均可免费使用,助力开发者实现 “Token 自由”。
如需体验新上线的 MiniMax-M1-80k,用户可通过 SiliconCloud 官方网站进行在线体验和接入,进一步推动生成式 AI 的应用发展。
在线体验
https://cloud.siliconflow.cn/models
第三方应用接入教程
https://docs.siliconflow.cn/cn/usercases/

全球首例开源大规模混合注意力推理模型 MiniMax-M1-80k 由硅基流动正式发布

硅基流动上线的全球首个开源大规模混合注意力推理模型 MiniMax-M1-80k 是一款具有创新性和高效性的模型,以下是其主要特点和优势:

技术架构

  • 混合注意力架构:MiniMax-M1 采用了混合注意力架构,结合了 Lightning Attention 和传统 Softmax Attention。Lightning Attention 机制将注意力计算分为块内和块间两部分,块内采用传统注意力计算,块间采用线性注意力的核技巧,避免了累积求和操作,显著提高了计算效率。

  • 混合专家(MoE)架构:模型结合了 MoE 架构,通过将模型参数划分为多个专家模块,并在每次推理过程中只激活其中一部分,实现了更高的灵活性和资源利用率。

性能表现

  • 长上下文支持:MiniMax-M1 支持 100 万 token 的上下文输入,同时支持最多 8 万 token 的输出,这在业内处于领先水平。

  • 高效推理能力:在生成长度为 10 万 token 时,MiniMax-M1 的浮点运算次数仅为 DeepSeek R1 的 25%,推理效率极高。

  • 强化学习优化:MiniMax 为 M1 开发了高效的强化学习扩展框架,提出了名为 CISPO 的新颖算法,优化了模型的训练过程。

版本与训练成本

  • 两种版本:MiniMax 训练了两个版本的 MiniMax-M1 模型,分别具有 40k 和 80k 的思考预算。

  • 训练成本:整个强化学习阶段仅用到 512 块 H800,耗时三周,租赁成本仅为 53.47 万美元。

应用场景

  • 复杂任务处理:MiniMax-M1 在复杂的软件工程、工具使用和长上下文任务上表现突出,适用于需要处理长输入并进行深度思考的复杂任务。

  • 多领域适用:该模型在竞赛级数学、编程、软件工程、智能体工具使用以及长上下文理解等任务中表现出色。

MiniMax-M1-80k 的推出为开源大模型领域带来了新的突破,其高效的计算架构和强大的性能使其在长上下文处理和复杂任务推理方面具有显著优势。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复