Google I/O展示Gemma模型家族在手机到手语翻译领域的全面革新
发布时间:2025-05-21 10:32:36 | 责任编辑:吴昊 | 浏览量:3 次
在2025年Google I/O开发者大会上,谷歌正式发布轻量级多模态模型Gemma3n,并宣布Gemma模型家族持续扩展,新增面向医疗和无障碍场景的MedGemma与SignGemma。
作为本地运行AI趋势的代表,Gemma3n专为手机、笔记本和平板等低算力设备设计,具备处理文本、音频、图像和视频的能力。据谷歌介绍,Gemma3n甚至可在低于2GB运行内存的设备上流畅运行,体现出其高效架构优势。该模型已于发布日面向开发者预览,并与Gemini Nano共享底层架构。
谷歌强调,Gemma3n的轻量与隐私优势,使其成为离线AI应用的理想选择。相比需要依赖云端的大型模型,本地AI模型不仅响应更快、成本更低,还能保护用户数据不被传输至远程服务器,尤其适用于隐私敏感型场景。
在健康领域,谷歌通过旗下健康AI开发者基金会,推出了MedGemma——一组针对健康相关文本与图像的开放模型。据介绍,MedGemma具备出色的多模态分析能力,支持开发者在医疗影像识别、病历文本处理等场景中构建更精准的AI工具。
此外,谷歌还预告了即将推出的SignGemma模型,专为手语识别而设计,能够将美国手语(ASL)翻译成英语文本,旨在帮助开发者为聋哑与听障用户构建更友好的沟通工具。谷歌表示,这是“目前为止最强大的手语理解模型”。
尽管Gemma模型系列因其非标准许可条款引发部分开发者对商业化使用的担忧,但其广泛的功能性仍获得开发者社区热烈响应,Gemma模型系列的下载量已突破数千万次。
随着Gemma模型家族不断拓展,谷歌正推动开放AI模型在设备端、本地隐私保护、医疗健康与无障碍领域迈向更广阔的应用空间。
在2025年5月20日的Google I/O开发者大会上,谷歌正式发布了Gemma模型家族的全面升级版本,并推出了多个新的模型。以下是主要亮点:
1. Gemma 3n
-
特点:Gemma 3n是专为低性能设备(如智能手机、笔记本电脑和平板电脑)设计的轻量级多模态模型,能够处理文本、音频、图像和视频。它可以在运行内存少于2GB的设备上流畅运行。
-
优势:与依赖云端计算的大型模型相比,Gemma 3n不仅响应更快、成本更低,还能保护用户数据不被传输到远程服务器,特别适合隐私敏感场景。
-
应用:该模型适用于需要在本地设备上运行AI应用的开发者,例如在离线环境中使用。
2. MedGemma
-
特点:MedGemma是谷歌最强大的开放模型之一,专门用于分析健康相关的文本和图像。它具有出色的多模态分析能力,支持开发者构建更精准的AI工具,例如医疗影像识别和病历文本处理。
-
应用:开发者可以利用MedGemma构建自己的医疗健康应用,提高医疗诊断和记录管理的效率。
3. SignGemma
-
特点:SignGemma是一个用于手语识别的开放模型,能够将美国手语(ASL)翻译成英文文本。谷歌称其为“目前最强大的手语理解模型”。
-
应用:该模型旨在帮助开发者为聋哑和听力障碍用户创建更友好的沟通工具。
4. 其他更新
-
Gemma模型家族的扩展:除了上述模型,Gemma家族还在不断扩展,以涵盖更多领域和应用场景。
-
开发者反馈:尽管Gemma模型系列因非标准许可条款受到一些开发者的批评,但其功能广泛,下载量已超过数千万次。
总结
此次Gemma模型家族的全面升级展示了谷歌在AI领域的持续创新和对不同应用场景的深入探索。这些新模型不仅提升了设备端AI应用的性能和隐私保护,还为医疗和无障碍通信等领域带来了新的可能性。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。