首页 > 快讯 > Meta 官宣开源原生多模态 Llama 4，性能强劲引关注

Meta 官宣开源原生多模态 Llama 4，性能强劲引关注

发布时间：2025-04-06 15:18:37 | 责任编辑：字母汇 | 浏览量：401 次

《Meta 官宣开源原生多模态 Llama 4，性能强劲引关注》相关软件官网

美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款，分别是 Llama4Scout 和 Llama4Maverick 。
Llama4Scout 共有1090亿参数，170亿活跃参数，16个专家，最大亮点是支持1000万上下文，这相当于可以处理20+ 小时的视频，并且仅在单个 H100GPU（Int4量化后）上就能运行。在基准测试中，其性能超越 Gemma3、Gemini2.0Flash - Lite、Mistral3.1。
Llama4Maverick 共有4000亿参数，170亿活跃参数，128个专家，100万上下文。在大模型 LMSYS 排行榜上，Llama4Maverick 冲上第二（ELO 得分1417），仅次于闭源 Gemini2.5Pro，且仅用一半参数，其推理编码能力就与 DeepSeek - v3-0324实力相当。
另外，还有更强大的2万亿参数 Llama4Behemoth 将在未来几个月面世，它有2880亿活跃参数，16个专家，目前在 STEM 基准测试中，已超越了 GPT -4.5、Claude Sonnet3.7、Gemini2.0Pro。
Llama4系列首次采用混合专家（MoE）架构，该架构在训练和回答用户查询时效率更高。Llama4还是原生多模态模型，采用早期融合技术，能无缝整合文本和视觉 token。同时，Meta 还升级了视觉编码器，并开发了新训练方法 MetaP 来优化超参数。即日起，开发者可以在llama.com和 Hugging Face 下载这两款最新模型。

Meta 官宣开源原生多模态 Llama 4，性能强劲引关注-项目/模型网址:
Model Scope Hugging Face

Meta 官宣开源原生多模态 Llama 4，性能强劲引关注

Meta 最新发布的 Llama 4 系列开源大模型凭借其 原生多模态能力、高效 MoE 架构和超长上下文支持，迅速引发行业关注。此次发布的模型包括 Llama 4 Scout、Llama 4 Maverick 和仍在训练中的 Llama 4 Behemoth，在推理、编码和多模态任务上表现卓越，甚至部分超越 GPT-4o 和 Gemini 2.0。

Llama 4 核心亮点

1. 原生多模态，视觉理解能力大幅提升

早期融合（Early Fusion）架构：文本、图像、视频等数据在预训练阶段即统一处理，而非分阶段训练，显著提升跨模态推理能力。
支持单次输入8张图像，可执行复杂视觉问答（VQA）、图像区域标注等任务。
MetaCLIP 视觉编码器优化，与语言模型联合训练，增强图文理解一致性。

2. 混合专家（MoE）架构，推理效率翻倍

Llama 4 Scout（170亿活跃参数/1090亿总参数）可在 单张 H100 GPU 运行，适合轻量级部署。
Llama 4 Maverick（170亿活跃参数/4000亿总参数）仅需 H100 DGX 单机，推理成本低至 $0.19–$0.49/百万 tokens，远低于 GPT-4o（$4.38/百万 tokens）。
Behemoth（2880亿活跃参数/2万亿总参数） 仍在训练，预计将成为最强开源模型。

3. 超长上下文支持，最高1000万 tokens

Scout 支持 1000 万 tokens（约 2000 万字或 20 小时视频），适用于 长文档分析、代码库推理 等任务。
Maverick 支持 100 万 tokens，在 DocVQA、MathVista 等基准测试中超越 GPT-4o 和 Gemini 2.0。
iRoPE 架构（交错注意力层+推理时温度缩放）实现短序列训练、长序列泛化。

4. 训练技术创新：MetaP 超参数优化 & FP8 高效训练

MetaP 技术：通过小模型实验预测大模型超参数，节省训练成本。
FP8 低精度训练：Behemoth 采用 32,000 块 GPU 训练，单卡算力达 390 TFLOPs。
后训练流程优化：轻量级 SFT → 在线 RL → 轻量级 DPO，减少对齐约束，增强推理能力。

5. 性能对标行业顶尖模型

模型	关键优势	对标竞品
Llama 4 Scout	1000万 tokens 上下文，单 H100 可跑	Mistral 3.1、Gemini 2.0 Flash
Llama 4 Maverick	编码能力匹敌 DeepSeek V3，参数减半	GPT-4o、DeepSeek V3
Llama 4 Behemoth	MATH-500（95.0）、MMLU Pro（82.2）超越 GPT-4.5	Claude Sonnet 3.7、Gemini 2.0 Pro

行业影响与未来展望

开源生态竞争加剧：Llama 4 虽未全面碾压 GPT-4o 或 DeepSeek R1，但凭借 低成本、高效部署和多模态能力，成为开源领域新标杆。
AI Agent 与影视创作新可能：Meta 计划推出 独立 AI 聊天机器人，并探索 AI 生成电影 等应用。
算力需求激增：Behemoth 的训练规模（32K GPU）预示未来大模型对超算的依赖。

Meta 此次发布标志着 开源多模态 AI 进入新阶段，尽管部分行业观察者认为其创新性不及预期，但 Scout 和 Maverick 的实用性 已吸引大量开发者关注。未来，随着 Behemoth 的正式推出，Meta 或将在 AI 竞赛中占据更关键位置。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：谷歌 Gemini 2.5 Pro API 定价公布，使用量猛增引关注

下一篇：谷歌新研究：合成数据助力大模型，数学推理能力提升八倍

Meta 官宣开源原生多模态 Llama 4，性能强劲引关注

Llama 4 核心亮点

1. 原生多模态，视觉理解能力大幅提升

2. 混合专家（MoE）架构，推理效率翻倍

3. 超长上下文支持，最高1000万 tokens

4. 训练技术创新：MetaP 超参数优化 & FP8 高效训练

5. 性能对标行业顶尖模型

行业影响与未来展望

最新Ai信息

最新Ai工具

热门AI推荐