Meta 官宣开源原生多模态 Llama 4,性能强劲引关注
发布时间:2025-04-06 15:18:37 | 责任编辑:字母汇 | 浏览量:27 次
《Meta 官宣开源原生多模态 Llama 4,性能强劲引关注》相关软件

美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款,分别是 Llama4Scout 和 Llama4Maverick 。
Llama4Scout 共有1090亿参数,170亿活跃参数,16个专家,最大亮点是支持1000万上下文,这相当于可以处理20+ 小时的视频,并且仅在单个 H100GPU(Int4量化后)上就能运行。在基准测试中,其性能超越 Gemma3、Gemini2.0Flash - Lite、Mistral3.1。
Llama4Maverick 共有4000亿参数,170亿活跃参数,128个专家,100万上下文。在大模型 LMSYS 排行榜上,Llama4Maverick 冲上第二(ELO 得分1417),仅次于闭源 Gemini2.5Pro,且仅用一半参数,其推理编码能力就与 DeepSeek - v3-0324实力相当。
另外,还有更强大的2万亿参数 Llama4Behemoth 将在未来几个月面世,它有2880亿活跃参数,16个专家,目前在 STEM 基准测试中,已超越了 GPT -4.5、Claude Sonnet3.7、Gemini2.0Pro。
Llama4系列首次采用混合专家(MoE)架构,该架构在训练和回答用户查询时效率更高。Llama4还是原生多模态模型,采用早期融合技术,能无缝整合文本和视觉 token。同时,Meta 还升级了视觉编码器,并开发了新训练方法 MetaP 来优化超参数。即日起,开发者可以在llama.com和 Hugging Face 下载这两款最新模型。

Meta 最新发布的 Llama 4 系列开源大模型凭借其 原生多模态能力、高效 MoE 架构和超长上下文支持,迅速引发行业关注。此次发布的模型包括 Llama 4 Scout、Llama 4 Maverick 和仍在训练中的 Llama 4 Behemoth,在推理、编码和多模态任务上表现卓越,甚至部分超越 GPT-4o 和 Gemini 2.0。
Llama 4 核心亮点
1. 原生多模态,视觉理解能力大幅提升
- 早期融合(Early Fusion)架构:文本、图像、视频等数据在预训练阶段即统一处理,而非分阶段训练,显著提升跨模态推理能力。
- 支持单次输入8张图像,可执行复杂视觉问答(VQA)、图像区域标注等任务。
- MetaCLIP 视觉编码器优化,与语言模型联合训练,增强图文理解一致性。
2. 混合专家(MoE)架构,推理效率翻倍
- Llama 4 Scout(170亿活跃参数/1090亿总参数)可在 单张 H100 GPU 运行,适合轻量级部署。
- Llama 4 Maverick(170亿活跃参数/4000亿总参数)仅需 H100 DGX 单机,推理成本低至 $0.19–$0.49/百万 tokens,远低于 GPT-4o($4.38/百万 tokens)。
- Behemoth(2880亿活跃参数/2万亿总参数) 仍在训练,预计将成为最强开源模型。
3. 超长上下文支持,最高1000万 tokens
- Scout 支持 1000 万 tokens(约 2000 万字或 20 小时视频),适用于 长文档分析、代码库推理 等任务。
- Maverick 支持 100 万 tokens,在 DocVQA、MathVista 等基准测试中超越 GPT-4o 和 Gemini 2.0。
- iRoPE 架构(交错注意力层+推理时温度缩放)实现短序列训练、长序列泛化。
4. 训练技术创新:MetaP 超参数优化 & FP8 高效训练
- MetaP 技术:通过小模型实验预测大模型超参数,节省训练成本。
- FP8 低精度训练:Behemoth 采用 32,000 块 GPU 训练,单卡算力达 390 TFLOPs。
- 后训练流程优化:轻量级 SFT → 在线 RL → 轻量级 DPO,减少对齐约束,增强推理能力。
5. 性能对标行业顶尖模型
模型 | 关键优势 | 对标竞品 |
---|---|---|
Llama 4 Scout | 1000万 tokens 上下文,单 H100 可跑 | Mistral 3.1、Gemini 2.0 Flash |
Llama 4 Maverick | 编码能力匹敌 DeepSeek V3,参数减半 | GPT-4o、DeepSeek V3 |
Llama 4 Behemoth | MATH-500(95.0)、MMLU Pro(82.2)超越 GPT-4.5 | Claude Sonnet 3.7、Gemini 2.0 Pro |
行业影响与未来展望
- 开源生态竞争加剧:Llama 4 虽未全面碾压 GPT-4o 或 DeepSeek R1,但凭借 低成本、高效部署和多模态能力,成为开源领域新标杆。
- AI Agent 与影视创作新可能:Meta 计划推出 独立 AI 聊天机器人,并探索 AI 生成电影 等应用。
- 算力需求激增:Behemoth 的训练规模(32K GPU)预示未来大模型对超算的依赖。
Meta 此次发布标志着 开源多模态 AI 进入新阶段,尽管部分行业观察者认为其创新性不及预期,但 Scout 和 Maverick 的实用性 已吸引大量开发者关注。未来,随着 Behemoth 的正式推出,Meta 或将在 AI 竞赛中占据更关键位置。
Meta 官宣开源原生多模态 Llama 4,性能强劲引关注:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。