首页 > 快讯 > 谷歌推出轻量级 Gemma 3 QAT 模型：单张3090显卡即可流畅运行

谷歌推出轻量级 Gemma 3 QAT 模型：单张3090显卡即可流畅运行

发布时间：2025-04-21 12:41:18 | 责任编辑：吴昊 | 浏览量：105 次

谷歌近期推出了 Gemma3系列的全新版本，这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后，谷歌便发布了经过量化感知训练（QAT）优化的 Gemma3，旨在显著降低内存需求的同时，保持模型的高质量。
具体来说，经过 QAT 优化的 Gemma327B 模型，其显存需求从54GB 大幅降低到14.1GB，意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试，配备 RTX3070的机器也能运行 Gemma3的12B 版本，尽管其 token 输出速度稍显不足，但整体性能仍在可接受范围之内。
QAT 的神奇之处在于，它在训练过程中直接融入量化操作，与传统的训练完成后再进行量化的方法不同。这种方法能够有效模拟低精度运算，从而在后续量化为更小版本时，尽量减少性能损失。谷歌进行了约5000步的 QAT 训练，成功将困惑度下降了54%，这让模型在小型设备上也能保持较高的运行效果。
现在，Gemma3的不同版本都可以在各类 GPU 上运行。以 Gemma327B 为例，只需单张 NVIDIA RTX3090（24GB VRAM）便能轻松实现本地运行，而 Gemma312B 则可以在 NVIDIA RTX4060等更轻便的设备上高效执行。这种模型的降维设计使得更多用户能够体验到强大的 AI 功能，甚至在资源有限的系统上(如手机)也能获得支持。
谷歌还与多个开发者工具合作，提供用户无缝体验的方式，如 Ollama、LM Studio 和 MLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是，许多用户对此表示极大的兴奋，纷纷表示希望谷歌进一步探索更高效的量化技术。

谷歌于2025年4月18日发布了Gemma 3 QAT（量化感知训练）版本模型，这一版本通过量化技术显著降低了模型的内存需求，使得消费级显卡也能轻松驾驭大型AI模型。

核心技术与优化

量化感知训练（QAT）：谷歌在模型训练过程中直接融入量化操作，模拟低精度运算，从而在后续量化为更小版本时，尽量减少性能损失。经过约5000步的QAT训练，Gemma 3模型的困惑度下降了54%，显著提升了模型在低精度下的性能。
内存需求大幅降低：通过将模型参数从BF16（16位）量化至int4（4位），Gemma 3不同版本的显存需求显著减少：
- Gemma 3 27B：从54GB降至14.1GB。
- Gemma 3 12B：从24GB降至6.6GB。
- Gemma 3 4B：从8GB降至2.6GB。
- Gemma 3 1B：从2GB降至0.5GB。

消费级硬件支持

桌面显卡：Gemma 3 27B（int4）版本现在可以轻松安装在单张NVIDIA RTX 3090（24GB VRAM）显卡上。
笔记本显卡：Gemma 3 12B（int4）版本可以在NVIDIA RTX 4060 GPU（8GB VRAM）等笔记本电脑GPU上高效运行。
移动设备：更小的模型版本（如4B、1B）甚至可以在资源有限的系统（如手机）上运行。

获取与使用

官方的int4和Q4_0非量化QAT模型已在Hugging Face和Kaggle上线，用户可以通过这些平台轻松获取并使用。
此外，Ollama、LM Studio和llama.cpp等主流平台也已集成该模型，进一步降低了使用门槛。

谷歌通过Gemma 3 QAT模型的发布，不仅让强大的AI功能更加普及，还为开发者和普通用户提供了更多便利。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。