Gemma 4 QAT：量化感知訓練

2026-06-06 · 來源：Google AI Blog · 作者：Olivier Lacombe & Omar Sanseviero (Google DeepMind)

一句話：Google DeepMind 將量化感知訓練（QAT）導入 Gemma 4 全系列，E2B 文字版記憶體需求壓到 <1GB，品質優於傳統 PTQ，目標是讓 LLM 在手機和筆電上原生執行。

關鍵數據：VRAM 需求對比

模型	FP16	Q4_0（QAT）	Mobile 格式
Gemma 4 E2B	2 GB	1.2 GB	1 GB
Gemma 4 E4B	4 GB	2.1 GB	1.8 GB
Gemma 4 12B	12 GB	6.2 GB	5.2 GB
Gemma 4 26B MOE	26 GB	13.5 GB	11.3 GB

壓縮率：FP16 → Mobile 格式減少 50–57% 記憶體。文字專用模式（去掉音訊/視覺編碼器）可再進一步降低。

傳統的 PTQ（Post-Training Quantization）在訓練完成後才量化權重，無法「適應」量化造成的精度損失。QAT 則在訓練過程中就模擬量化效果，模型學會在低精度下仍保持推理品質。Google 的結果顯示 QAT 品質顯著優於 PTQ baseline。

針對手機晶片設計了四項優化：

Gemma 4 是多模態模型（文字＋音訊＋視覺）。若只需要文字推理，可只部署文字編碼器，去掉 Per-Layer Embeddings 的音訊/視覺組件，進一步降低記憶體。

量化邊緣部署 Gemma QAT Google DeepMind