Gemma 4 QAT:量化感知訓練
一句話:Google DeepMind 將量化感知訓練(QAT)導入 Gemma 4 全系列,E2B 文字版記憶體需求壓到 <1GB,品質優於傳統 PTQ,目標是讓 LLM 在手機和筆電上原生執行。
關鍵數據:VRAM 需求對比
| 模型 | FP16 | Q4_0(QAT) | Mobile 格式 |
| Gemma 4 E2B | 2 GB | 1.2 GB | 1 GB |
| Gemma 4 E4B | 4 GB | 2.1 GB | 1.8 GB |
| Gemma 4 12B | 12 GB | 6.2 GB | 5.2 GB |
| Gemma 4 26B MOE | 26 GB | 13.5 GB | 11.3 GB |
壓縮率:FP16 → Mobile 格式減少 50–57% 記憶體。文字專用模式(去掉音訊/視覺編碼器)可再進一步降低。
機制拆解
QAT vs PTQ
傳統的 PTQ(Post-Training Quantization)在訓練完成後才量化權重,無法「適應」量化造成的精度損失。QAT 則在訓練過程中就模擬量化效果,模型學會在低精度下仍保持推理品質。Google 的結果顯示 QAT 品質顯著優於 PTQ baseline。
行動端專用量化格式
針對手機晶片設計了四項優化:
- 靜態 Activation:預計算縮放參數,免除執行期的動態計算,減輕手機晶片負擔
- Channel-wise 量化:壓縮結構對齊手機加速器(ANE / DSP)原生格式,不需慢速轉換
- 局部 2-bit 量化:僅對 token 生成層極限壓縮(2-bit),核心推理層保留較高精度 — 以空間換品質
- Embedding + KV Cache 壓縮:詞彙表與短期記憶是記憶體大戶,針對性壓縮讓長對話不爆 RAM
模態選擇性部署
Gemma 4 是多模態模型(文字+音訊+視覺)。若只需要文字推理,可只部署文字編碼器,去掉 Per-Layer Embeddings 的音訊/視覺組件,進一步降低記憶體。
落地應用建議
- 邊緣部署首選 E2B — 1GB VRAM 意味著 Raspberry Pi 5(8GB)或舊款 MacBook Air 都能跑
- QAT > PTQ — 以後選量化模型,優先找有 QAT checkpoint 的版本(目前僅 Gemma 4 有)
- llama.cpp 支援 — Q4_0 是 GGUF 標準格式,換 checkpoint 即可沿用現有推理棧
- ARM 邊緣部署 — 你的 ARM 機器(Oracle Ampere)跑 QAT 版 E2B/E4B 理論上可行,值得測試
- 注意 — Mobile 格式需專屬推理引擎,目前可能僅 MediaPipe / AI Edge SDK 支援,通用工具鏈待補齊
來源與延伸閱讀
量化
邊緣部署
Gemma
QAT
Google DeepMind