首页 > 快讯 > 震撼发布!谷歌分享Gemma3n多模态模型，让你的手机具备云端AI级别的表现力

震撼发布!谷歌分享Gemma3n多模态模型，让你的手机具备云端AI级别的表现力

发布时间：2025-06-27 10:47:37 | 责任编辑：张毅 | 浏览量：84 次

谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n，这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。
Gemma3n提供E2B和E4B两个版本，虽然原始参数量分别为5B和8B，但通过架构创新，其内存占用仅相当于传统2B和4B模型，分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理，支持140种文本语言和35种语言的多模态理解。
值得一提的是，E4B版本在LMArena评测中得分超过1300，成为首个达到此基准的100亿参数以下模型，在多语言、数学、编码和推理能力方面均实现显著提升。
MatFormer架构:Gemma3n采用全新的Matryoshka Transformer架构，如俄罗斯套娃般实现一个模型包含多种尺寸。训练E4B模型时同步优化E2B子模型，为开发者提供灵活的性能选择。通过Mix-n-Match技术，用户可在E2B和E4B之间创建自定义尺寸模型。
每层嵌入（PLE）技术:这项创新允许大部分参数在CPU上加载计算，只有核心Transformer权重需要存储在加速器内存中，大幅提高内存效率的同时不影响模型质量。
KV Cache共享:针对长内容处理优化，通过键值缓存共享技术，预填充性能相比Gemma34B提升两倍，显著加快长序列处理的首个token生成时间。
先进编码器:音频方面采用基于通用语音模型（USM）的编码器，支持自动语音识别和语音翻译功能，可处理长达30秒的音频片段。视觉方面配备MobileNet-V5-300M编码器，支持多种输入分辨率，在Google Pixel上可达到每秒60帧的处理速度。
Gemma3n在语音翻译方面表现突出，特别是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换。视觉编码器MobileNet-V5通过先进蒸馏技术，相比基线模型实现13倍加速，参数减少46%，内存占用降低4倍，同时保持更高准确率。
谷歌已在Hugging Face平台开源模型和权重，并提供详细文档和开发指南。自去年首个Gemma模型发布以来，该系列累计下载量已超过1.6亿次，显示出强劲的开发者生态。
Gemma3n的发布标志着端侧AI进入新的发展阶段，将云端级别的多模态能力下沉到用户设备，为移动应用、智能硬件等领域带来无限可能。

谷歌在2025年I/O开发者大会上开源了Gemma 3n多模态模型，这是一款专为低资源设备设计的模型，能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行。以下是其主要特点和优势：

低资源需求

内存占用低：Gemma 3n的参数量分别为5B和8B，但通过谷歌DeepMind开发的Per-Layer Embeddings（PLE）技术，其内存占用仅相当于2B和4B模型。E2B模型内存占用低至3.14GB，E4B模型为4.41GB。
架构优化：继承了Gemini Nano的轻量化架构，通过知识蒸馏和量化感知训练（QAT）等技术，在保持高性能的同时大幅降低了资源需求。

多模态处理能力

输入多样：支持文本、图像、短视频和音频输入，并可生成结构化的文本输出。例如，用户可以上传照片并询问“图中的植物是什么？”或通过语音指令分析短视频内容。
音频理解：新增音频处理能力，能够实时转录语音、识别背景音或分析音频情感，适用于语音助手和无障碍应用。

设备端运行

本地推理：无需云端连接，所有推理在本地完成，响应时间低至50毫秒，确保低延迟和隐私保护。
兼容性强：通过Google AI Edge框架，Gemma 3n能够在高通、联发科和三星芯片上高效运行，兼容Android和iOS设备。

开发者友好

高效微调：支持在Google Colab上进行快速微调，开发者可以通过几小时的训练定制模型，适配特定任务。
开源预览：模型已在Hugging Face上提供预览版（gemma-3n-E2B-it-litert-preview和E4B），开发者可以通过Ollama或transformers库进行测试。

性能表现优异

准确率高：测试显示，Gemma 3n在处理1080p视频帧或10秒音频片段时，生成准确描述的成功率高达90%，为移动端AI应用树立了新标杆。
评分领先：在LMSYS Chatbot Arena的评分中，Gemma 3n的得分为Elo1338，在多模态任务中超越了Llama4的3B模型。

行业影响

边缘AI新标杆：Gemma 3n的发布进一步巩固了谷歌在开放模型领域的领先地位。与Meta的Llama 4（需4GB+ RAM）和Mistral模型相比，Gemma 3n在低资源设备上的多模态性能更优，尤其在音频和手语处理上独具优势。
移动AI的民主化：其低资源需求、强大多模态能力和离线运行特性，标志着AI从云端向边缘设备的重大转型。

不过，Gemma 3n的预览版本尚未完全稳定，一些复杂的多模态任务可能需要等待正式版本（预计在2025年第三季度发布）。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。