Gemma 4 QAT:量化感知訓練

2026-06-06 · 來源:Google AI Blog · 作者:Olivier Lacombe & Omar Sanseviero (Google DeepMind)
一句話:Google DeepMind 將量化感知訓練(QAT)導入 Gemma 4 全系列,E2B 文字版記憶體需求壓到 <1GB,品質優於傳統 PTQ,目標是讓 LLM 在手機和筆電上原生執行。

關鍵數據:VRAM 需求對比

模型FP16Q4_0(QAT)Mobile 格式
Gemma 4 E2B2 GB1.2 GB1 GB
Gemma 4 E4B4 GB2.1 GB1.8 GB
Gemma 4 12B12 GB6.2 GB5.2 GB
Gemma 4 26B MOE26 GB13.5 GB11.3 GB

壓縮率:FP16 → Mobile 格式減少 50–57% 記憶體。文字專用模式(去掉音訊/視覺編碼器)可再進一步降低。

機制拆解

QAT vs PTQ

傳統的 PTQ(Post-Training Quantization)在訓練完成後才量化權重,無法「適應」量化造成的精度損失。QAT 則在訓練過程中就模擬量化效果,模型學會在低精度下仍保持推理品質。Google 的結果顯示 QAT 品質顯著優於 PTQ baseline。

行動端專用量化格式

針對手機晶片設計了四項優化:

模態選擇性部署

Gemma 4 是多模態模型(文字+音訊+視覺)。若只需要文字推理,可只部署文字編碼器,去掉 Per-Layer Embeddings 的音訊/視覺組件,進一步降低記憶體。

落地應用建議

來源與延伸閱讀

量化 邊緣部署 Gemma QAT Google DeepMind