谷歌发布面向消费级 GPU 的 Gemma 3 QAT 模型-品玩

谷歌发布面向消费级 GPU 的 Gemma 3 QAT 模型

4月21日

品玩4月21日讯，据 Winbuzzer 报道，谷歌近日发布了其 Gemma 3 系列的特别优化版本，使其可以在消费级GPU上运行。

这些模型采用了量化感知训练（Quantization-Aware Training，QAT）技术，并使用 4 位整数精度（int4）--与 BFloat16（BF16）等常见的 16 位类型相比，这种数值格式每个参数仅使用 4 位--来大幅缩减内存需求。其主要成果是，包括大型 Gemma 3 27B 变体在内的复杂模型现在可以在流行的消费级显卡上运行，从而使它们不再是高端数据中心加速器的专属领域。

谷歌曾表示打算提供压缩版本，承诺 “在保持高精度的同时，减少模型大小和计算要求”。现在，这一计划通过这些 QAT 版本得以实现。