新推Google AI Edge Gallery:借助Gemma 3n,本地AI应用开发变得前所未有的便捷!
发布时间:2025-06-03 12:28:01 | 责任编辑:吴昊 | 浏览量:19 次
在近期举办的Google I/O2025大会上,Google悄然推出了一款开源项目——Google AI Edge Gallery,一款完全本地运行的生成式AI应用,基于最新的Gemma3n模型,集成了多模态能力,支持文本、图片和音频输入。这一项目以其高效的端侧AI性能和开源特性,为开发者提供了构建本地化AI应用的理想模板。
Google AI Edge Gallery:端侧AI的开源新标杆
Google AI Edge Gallery是一款面向Android(iOS版本即将推出)的实验性应用,允许用户在本地设备上运行来自Hugging Face的多种开源AI模型,无需联网即可实现高效推理。项目采用Apache2.0许可证,代码已公开在GitHub上,开发者可自由使用和修改,极大地降低了端侧AI应用的开发门槛。小编注意到,该项目不仅展示了Google在端侧AI领域的最新成果,还为开发者提供了一个可快速上手的模板,助力构建定制化的AI应用。
核心亮点在于其基于Gemma3n模型,这是一款专为移动设备优化的多模态小型语言模型(SLM),支持文本、图片、音频和视频输入,具备强大的本地推理能力。无论是离线环境下的语音转录、图像分析,还是实时交互,Google AI Edge Gallery都展现了端侧AI的巨大潜力。
多模态能力:文本、图片、音频全覆盖
Google AI Edge Gallery集成了Gemma3n的多模态功能,支持用户上传图片和音频进行处理。例如,现场技术人员可以拍摄设备照片并提出问题,AI即可基于图像内容生成精准回答;仓库工作人员可通过语音更新库存数据,实现解放双手的智能交互。此外,Gemma3n支持高质量的自动语音识别(ASR)和语音翻译功能,能够处理复杂的多模态输入,为开发交互式应用提供了更多可能性。
小编了解到,Gemma3n的2B和4B参数版本已支持文本、图像、视频和音频输入,相关模型现已上架Hugging Face,音频处理功能也将很快推出。相比传统的云端大模型,Gemma3n的小型化设计使其在手机、平板等资源受限设备上运行流畅,模型体积仅529MB,却能以每秒2585个token的预填充速度处理长达一页的内容。
开源与高效:开发者友好的设计
Google AI Edge Gallery通过LiteRT运行时和LLM推理API提供轻量级模型执行环境,支持开发者从Hugging Face社区选择和切换不同模型。项目还集成了检索增强生成(RAG)和函数调用功能,允许开发者在不进行模型微调的情况下,为应用注入特定领域的数据。例如,企业可利用RAG技术将内部知识库与AI结合,提供定制化的问答服务。
此外,Gemma3n支持最新的int4量化技术,相比bf16格式,模型体积可缩小2.5-4倍,同时显著降低延迟和内存占用。这种高效的量化方案确保了AI模型在低功耗设备上的卓越性能。开发者可通过Google提供的Colab教程,快速完成模型微调、转换和部署,极大简化了开发流程。
离线运行与隐私保护:端侧AI的独特优势
Google AI Edge Gallery的完全离线运行能力是其最大亮点之一。所有AI推理均在设备端完成,无需依赖网络或Google Play服务,确保了数据隐私和低延迟响应。这对于医疗、工业维护等对隐私和实时性要求高的场景尤为重要。例如,现场工作人员可在无网络环境下通过语音或图像与AI交互,完成设备诊断或数据记录。
小编认为,这种离线运行模式不仅提升了用户体验,还降低了企业对云端算力的依赖,减少了运行成本。项目的开源性质进一步赋予开发者自由定制的权利,无论是构建教育助手、医疗支持工具,还是探索创新的交互体验,Google AI Edge Gallery都提供了坚实的基础。
行业影响:端侧AI的普及与挑战
Google AI Edge Gallery的发布标志着端侧AI的进一步普及。相较于Hume AI的EVI3和ElevenLabs的Conversational AI2.0,Google AI Edge Gallery更专注于本地化部署和多模态应用的开源生态,目标是通过Gemma3n赋能开发者社区,打造多样化的端侧AI应用。然而,部分观点认为,端侧AI与云端大模型存在性能差距,用户对“最佳体验”的追求可能限制其发展。小编认为,随着硬件性能的提升和模型优化的持续推进,端侧AI有望在特定场景中实现与云端模型相媲美的表现。
Google AI Edge Gallery的推出,不仅展示了Gemma3n在多模态和端侧推理上的技术突破,也通过开源方式降低了AI应用的开发门槛。其离线运行、多模态支持和高效量化技术,为开发者提供了灵活且强大的工具。小编预计,该项目将激发更多创新应用,尤其在隐私敏感和资源受限的场景中展现独特价值。未来,随着iOS版本的发布和更多模型的集成,Google AI Edge Gallery有望成为端侧AI开发的标杆。
Google AI Edge Gallery 是谷歌在 2025 年 5 月 31 日推出的一款开源的实验性应用,它允许用户在本地设备上运行来自 Hugging Face 的多种开源 AI 模型,目前支持 Android 平台,iOS 版本也即将推出。该应用的核心亮点是基于谷歌自研的 Gemma 3n 模型,这是一款专为移动设备优化的多模态小型语言模型,支持文本、图片、音频等多种输入方式。
主要特点
-
多模态支持:Gemma 3n 支持文本、图片、音频和视频输入,能够处理复杂的多模态任务,例如图像问答、语音转录和语音翻译。
-
离线运行与隐私保护:所有 AI 推理均在设备端完成,无需联网,确保了数据隐私和低延迟响应。这对于医疗、工业维护等对隐私和实时性要求高的场景尤为重要。
-
高效量化技术:Gemma 3n 支持最新的 int4 量化技术,相比 bf16 格式,模型体积可缩小 2.5-4 倍,同时显著降低延迟和内存占用。
-
开发者友好:Google AI Edge Gallery 提供了轻量级的模型执行环境,支持从 Hugging Face 社区选择和切换不同模型。此外,它还集成了检索增强生成(RAG)和函数调用功能,允许开发者在不进行模型微调的情况下,为应用注入特定领域的数据。
应用场景
-
工业维护:现场技术人员可以拍摄设备照片并提出问题,AI 基于图像内容生成精准回答。
-
仓储管理:仓库工作人员可通过语音更新库存数据,实现解放双手的智能交互。
-
教育与医疗:在无网络环境下,用户可以通过语音或图像与 AI 交互,完成设备诊断或数据记录。
开发者优势
-
降低开发门槛:Google AI Edge Gallery 采用 Apache 2.0 许可证,代码已公开在 GitHub 上,开发者可自由使用和修改。
-
快速上手:开发者可以通过 Google 提供的 Colab 教程,快速完成模型微调、转换和部署。
-
灵活定制:开发者可以根据需求选择不同的模型,并通过 Prompt Lab 功能进行任务模板的配置和微调。
Google AI Edge Gallery 的发布标志着端侧 AI 的进一步普及,它通过开源方式降低了 AI 应用的开发门槛,为开发者提供了灵活且强大的工具。未来,随着 iOS 版本的发布和更多模型的集成,该应用有望成为端侧 AI 开发的标杆。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。