谷歌推出轻量级 Gemma 3 QAT 模型:单张3090显卡即可流畅运行
发布时间:2025-04-21 12:41:18 | 责任编辑:吴昊 | 浏览量:43 次
谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。
具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试,配备 RTX3070的机器也能运行 Gemma3的12B 版本,尽管其 token 输出速度稍显不足,但整体性能仍在可接受范围之内。
QAT 的神奇之处在于,它在训练过程中直接融入量化操作,与传统的训练完成后再进行量化的方法不同。这种方法能够有效模拟低精度运算,从而在后续量化为更小版本时,尽量减少性能损失。谷歌进行了约5000步的 QAT 训练,成功将困惑度下降了54%,这让模型在小型设备上也能保持较高的运行效果。
现在,Gemma3的不同版本都可以在各类 GPU 上运行。以 Gemma327B 为例,只需单张 NVIDIA RTX3090(24GB VRAM)便能轻松实现本地运行,而 Gemma312B 则可以在 NVIDIA RTX4060等更轻便的设备上高效执行。这种模型的降维设计使得更多用户能够体验到强大的 AI 功能,甚至在资源有限的系统上(如手机)也能获得支持。
谷歌还与多个开发者工具合作,提供用户无缝体验的方式,如 Ollama、LM Studio 和 MLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是,许多用户对此表示极大的兴奋,纷纷表示希望谷歌进一步探索更高效的量化技术。
谷歌于2025年4月18日发布了Gemma 3 QAT(量化感知训练)版本模型,这一版本通过量化技术显著降低了模型的内存需求,使得消费级显卡也能轻松驾驭大型AI模型。
核心技术与优化
-
量化感知训练(QAT):谷歌在模型训练过程中直接融入量化操作,模拟低精度运算,从而在后续量化为更小版本时,尽量减少性能损失。经过约5000步的QAT训练,Gemma 3模型的困惑度下降了54%,显著提升了模型在低精度下的性能。
-
内存需求大幅降低:通过将模型参数从BF16(16位)量化至int4(4位),Gemma 3不同版本的显存需求显著减少:
-
Gemma 3 27B:从54GB降至14.1GB。
-
Gemma 3 12B:从24GB降至6.6GB。
-
Gemma 3 4B:从8GB降至2.6GB。
-
Gemma 3 1B:从2GB降至0.5GB。
-
消费级硬件支持
-
桌面显卡:Gemma 3 27B(int4)版本现在可以轻松安装在单张NVIDIA RTX 3090(24GB VRAM)显卡上。
-
笔记本显卡:Gemma 3 12B(int4)版本可以在NVIDIA RTX 4060 GPU(8GB VRAM)等笔记本电脑GPU上高效运行。
-
移动设备:更小的模型版本(如4B、1B)甚至可以在资源有限的系统(如手机)上运行。
获取与使用
-
官方的int4和Q4_0非量化QAT模型已在Hugging Face和Kaggle上线,用户可以通过这些平台轻松获取并使用。
-
此外,Ollama、LM Studio和llama.cpp等主流平台也已集成该模型,进一步降低了使用门槛。
谷歌通过Gemma 3 QAT模型的发布,不仅让强大的AI功能更加普及,还为开发者和普通用户提供了更多便利。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。