首页 > 快讯 > 震撼发布!谷歌分享Gemma3n多模态模型,让你的手机具备云端AI级别的表现力

震撼发布!谷歌分享Gemma3n多模态模型,让你的手机具备云端AI级别的表现力

发布时间:2025-06-27 10:47:37 | 责任编辑:张毅 | 浏览量:8 次

谷歌于本周五凌晨正式发布并开源全新端侧多模态大模型Gemma3n,这一突破性产品为手机、平板、笔记本等端侧设备带来了此前只能在云端体验的强大多模态功能。
Gemma3n提供E2B和E4B两个版本,虽然原始参数量分别为5B和8B,但通过架构创新,其内存占用仅相当于传统2B和4B模型,分别只需2GB和3GB内存即可运行。该模型原生支持图像、音频、视频和文本的多模态输入处理,支持140种文本语言和35种语言的多模态理解。
值得一提的是,E4B版本在LMArena评测中得分超过1300,成为首个达到此基准的100亿参数以下模型,在多语言、数学、编码和推理能力方面均实现显著提升。
MatFormer架构:Gemma3n采用全新的Matryoshka Transformer架构,如俄罗斯套娃般实现一个模型包含多种尺寸。训练E4B模型时同步优化E2B子模型,为开发者提供灵活的性能选择。通过Mix-n-Match技术,用户可在E2B和E4B之间创建自定义尺寸模型。
每层嵌入(PLE)技术:这项创新允许大部分参数在CPU上加载计算,只有核心Transformer权重需要存储在加速器内存中,大幅提高内存效率的同时不影响模型质量。
KV Cache共享:针对长内容处理优化,通过键值缓存共享技术,预填充性能相比Gemma34B提升两倍,显著加快长序列处理的首个token生成时间。
先进编码器:音频方面采用基于通用语音模型(USM)的编码器,支持自动语音识别和语音翻译功能,可处理长达30秒的音频片段。视觉方面配备MobileNet-V5-300M编码器,支持多种输入分辨率,在Google Pixel上可达到每秒60帧的处理速度。
Gemma3n在语音翻译方面表现突出,特别是英语与西班牙语、法语、意大利语、葡萄牙语之间的转换。视觉编码器MobileNet-V5通过先进蒸馏技术,相比基线模型实现13倍加速,参数减少46%,内存占用降低4倍,同时保持更高准确率。
谷歌已在Hugging Face平台开源模型和权重,并提供详细文档和开发指南。自去年首个Gemma模型发布以来,该系列累计下载量已超过1.6亿次,显示出强劲的开发者生态。
Gemma3n的发布标志着端侧AI进入新的发展阶段,将云端级别的多模态能力下沉到用户设备,为移动应用、智能硬件等领域带来无限可能。

震撼发布!谷歌分享Gemma3n多模态模型,让你的手机具备云端AI级别的表现力

谷歌在2025年I/O开发者大会上开源了Gemma 3n多模态模型,这是一款专为低资源设备设计的模型,能够在仅需2GB内存的手机、平板和笔记本电脑上流畅运行。以下是其主要特点和优势:

低资源需求

  • 内存占用低:Gemma 3n的参数量分别为5B和8B,但通过谷歌DeepMind开发的Per-Layer Embeddings(PLE)技术,其内存占用仅相当于2B和4B模型。E2B模型内存占用低至3.14GB,E4B模型为4.41GB。

  • 架构优化:继承了Gemini Nano的轻量化架构,通过知识蒸馏和量化感知训练(QAT)等技术,在保持高性能的同时大幅降低了资源需求。

多模态处理能力

  • 输入多样:支持文本、图像、短视频和音频输入,并可生成结构化的文本输出。例如,用户可以上传照片并询问“图中的植物是什么?”或通过语音指令分析短视频内容。

  • 音频理解:新增音频处理能力,能够实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。

设备端运行

  • 本地推理:无需云端连接,所有推理在本地完成,响应时间低至50毫秒,确保低延迟和隐私保护。

  • 兼容性强:通过Google AI Edge框架,Gemma 3n能够在高通、联发科和三星芯片上高效运行,兼容Android和iOS设备。

开发者友好

  • 高效微调:支持在Google Colab上进行快速微调,开发者可以通过几小时的训练定制模型,适配特定任务。

  • 开源预览:模型已在Hugging Face上提供预览版(gemma-3n-E2B-it-litert-preview和E4B),开发者可以通过Ollama或transformers库进行测试。

性能表现优异

  • 准确率高:测试显示,Gemma 3n在处理1080p视频帧或10秒音频片段时,生成准确描述的成功率高达90%,为移动端AI应用树立了新标杆。

  • 评分领先:在LMSYS Chatbot Arena的评分中,Gemma 3n的得分为Elo1338,在多模态任务中超越了Llama4的3B模型。

行业影响

  • 边缘AI新标杆:Gemma 3n的发布进一步巩固了谷歌在开放模型领域的领先地位。与Meta的Llama 4(需4GB+ RAM)和Mistral模型相比,Gemma 3n在低资源设备上的多模态性能更优,尤其在音频和手语处理上独具优势。

  • 移动AI的民主化:其低资源需求、强大多模态能力和离线运行特性,标志着AI从云端向边缘设备的重大转型。

不过,Gemma 3n的预览版本尚未完全稳定,一些复杂的多模态任务可能需要等待正式版本(预计在2025年第三季度发布)。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复