首页 > 快讯 > 新推Google AI Edge Gallery：借助Gemma 3n，本地AI应用开发变得前所未有的便捷！

新推Google AI Edge Gallery：借助Gemma 3n，本地AI应用开发变得前所未有的便捷！

发布时间：2025-06-03 12:28:01 | 责任编辑：吴昊 | 浏览量：200 次

在近期举办的Google I/O2025大会上，Google悄然推出了一款开源项目——Google AI Edge Gallery，一款完全本地运行的生成式AI应用，基于最新的Gemma3n模型，集成了多模态能力，支持文本、图片和音频输入。这一项目以其高效的端侧AI性能和开源特性，为开发者提供了构建本地化AI应用的理想模板。
Google AI Edge Gallery:端侧AI的开源新标杆
Google AI Edge Gallery是一款面向Android（iOS版本即将推出）的实验性应用，允许用户在本地设备上运行来自Hugging Face的多种开源AI模型，无需联网即可实现高效推理。项目采用Apache2.0许可证，代码已公开在GitHub上，开发者可自由使用和修改，极大地降低了端侧AI应用的开发门槛。小编注意到，该项目不仅展示了Google在端侧AI领域的最新成果，还为开发者提供了一个可快速上手的模板，助力构建定制化的AI应用。
核心亮点在于其基于Gemma3n模型，这是一款专为移动设备优化的多模态小型语言模型（SLM），支持文本、图片、音频和视频输入，具备强大的本地推理能力。无论是离线环境下的语音转录、图像分析，还是实时交互，Google AI Edge Gallery都展现了端侧AI的巨大潜力。
多模态能力:文本、图片、音频全覆盖
Google AI Edge Gallery集成了Gemma3n的多模态功能，支持用户上传图片和音频进行处理。例如，现场技术人员可以拍摄设备照片并提出问题，AI即可基于图像内容生成精准回答;仓库工作人员可通过语音更新库存数据，实现解放双手的智能交互。此外，Gemma3n支持高质量的自动语音识别（ASR）和语音翻译功能，能够处理复杂的多模态输入，为开发交互式应用提供了更多可能性。
小编了解到，Gemma3n的2B和4B参数版本已支持文本、图像、视频和音频输入，相关模型现已上架Hugging Face，音频处理功能也将很快推出。相比传统的云端大模型，Gemma3n的小型化设计使其在手机、平板等资源受限设备上运行流畅，模型体积仅529MB，却能以每秒2585个token的预填充速度处理长达一页的内容。
开源与高效:开发者友好的设计
Google AI Edge Gallery通过LiteRT运行时和LLM推理API提供轻量级模型执行环境，支持开发者从Hugging Face社区选择和切换不同模型。项目还集成了检索增强生成（RAG）和函数调用功能，允许开发者在不进行模型微调的情况下，为应用注入特定领域的数据。例如，企业可利用RAG技术将内部知识库与AI结合，提供定制化的问答服务。
此外，Gemma3n支持最新的int4量化技术，相比bf16格式，模型体积可缩小2.5-4倍，同时显著降低延迟和内存占用。这种高效的量化方案确保了AI模型在低功耗设备上的卓越性能。开发者可通过Google提供的Colab教程，快速完成模型微调、转换和部署，极大简化了开发流程。
离线运行与隐私保护:端侧AI的独特优势
Google AI Edge Gallery的完全离线运行能力是其最大亮点之一。所有AI推理均在设备端完成，无需依赖网络或Google Play服务，确保了数据隐私和低延迟响应。这对于医疗、工业维护等对隐私和实时性要求高的场景尤为重要。例如，现场工作人员可在无网络环境下通过语音或图像与AI交互，完成设备诊断或数据记录。
小编认为，这种离线运行模式不仅提升了用户体验，还降低了企业对云端算力的依赖，减少了运行成本。项目的开源性质进一步赋予开发者自由定制的权利，无论是构建教育助手、医疗支持工具，还是探索创新的交互体验，Google AI Edge Gallery都提供了坚实的基础。
行业影响:端侧AI的普及与挑战
Google AI Edge Gallery的发布标志着端侧AI的进一步普及。相较于Hume AI的EVI3和ElevenLabs的Conversational AI2.0，Google AI Edge Gallery更专注于本地化部署和多模态应用的开源生态，目标是通过Gemma3n赋能开发者社区，打造多样化的端侧AI应用。然而，部分观点认为，端侧AI与云端大模型存在性能差距，用户对“最佳体验”的追求可能限制其发展。小编认为，随着硬件性能的提升和模型优化的持续推进，端侧AI有望在特定场景中实现与云端模型相媲美的表现。
Google AI Edge Gallery的推出，不仅展示了Gemma3n在多模态和端侧推理上的技术突破，也通过开源方式降低了AI应用的开发门槛。其离线运行、多模态支持和高效量化技术，为开发者提供了灵活且强大的工具。小编预计，该项目将激发更多创新应用，尤其在隐私敏感和资源受限的场景中展现独特价值。未来，随着iOS版本的发布和更多模型的集成，Google AI Edge Gallery有望成为端侧AI开发的标杆。

Google AI Edge Gallery 是谷歌在 2025 年 5 月 31 日推出的一款开源的实验性应用，它允许用户在本地设备上运行来自 Hugging Face 的多种开源 AI 模型，目前支持 Android 平台，iOS 版本也即将推出。该应用的核心亮点是基于谷歌自研的 Gemma 3n 模型，这是一款专为移动设备优化的多模态小型语言模型，支持文本、图片、音频等多种输入方式。

主要特点

多模态支持：Gemma 3n 支持文本、图片、音频和视频输入，能够处理复杂的多模态任务，例如图像问答、语音转录和语音翻译。
离线运行与隐私保护：所有 AI 推理均在设备端完成，无需联网，确保了数据隐私和低延迟响应。这对于医疗、工业维护等对隐私和实时性要求高的场景尤为重要。
高效量化技术：Gemma 3n 支持最新的 int4 量化技术，相比 bf16 格式，模型体积可缩小 2.5-4 倍，同时显著降低延迟和内存占用。
开发者友好：Google AI Edge Gallery 提供了轻量级的模型执行环境，支持从 Hugging Face 社区选择和切换不同模型。此外，它还集成了检索增强生成（RAG）和函数调用功能，允许开发者在不进行模型微调的情况下，为应用注入特定领域的数据。

应用场景

工业维护：现场技术人员可以拍摄设备照片并提出问题，AI 基于图像内容生成精准回答。
仓储管理：仓库工作人员可通过语音更新库存数据，实现解放双手的智能交互。
教育与医疗：在无网络环境下，用户可以通过语音或图像与 AI 交互，完成设备诊断或数据记录。

开发者优势

降低开发门槛：Google AI Edge Gallery 采用 Apache 2.0 许可证，代码已公开在 GitHub 上，开发者可自由使用和修改。
快速上手：开发者可以通过 Google 提供的 Colab 教程，快速完成模型微调、转换和部署。
灵活定制：开发者可以根据需求选择不同的模型，并通过 Prompt Lab 功能进行任务模板的配置和微调。

Google AI Edge Gallery 的发布标志着端侧 AI 的进一步普及，它通过开源方式降低了 AI 应用的开发门槛，为开发者提供了灵活且强大的工具。未来，随着 iOS 版本的发布和更多模型的集成，该应用有望成为端侧 AI 开发的标杆。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。