6.3 維度縮減方法 — ISLP 統計學習課程

想像你是一位人資主管，要從 100 份履歷中挑出 5 位候選人。每份履歷有 50 個欄位：年齡、學歷、工作年資、技能數、語言能力、證照數……。直接看 50 個維度會讓你頭昏眼花。但如果你發現「年齡 + 工作年資 ≒ 經驗指標」，而「技能數 + 證照數 ≒ 專業指標」，把 50 個欄位壓縮成 3-5 個「綜合指標」再評估，效率立刻暴增——這就是維度縮減（Dimension Reduction）的核心精神。

6.3.0 核心概念：用「線性組合」代替原始變數

前兩節我們學到兩種控制變異的方法：子集選擇（直接挑幾個變數）和收縮（把係數往零壓）。兩者都用「原始變數」X₁, X₂, …, X_p。現在第三條路出現了：先創造新的「綜合變數」，再用這些綜合變數跑迴歸。

當 M < p 時，我們把問題從「估計 p+1 個 β」降到了「估計 M+1 個 θ」——這就是「縮減」的由來。關鍵眉角在於：φⱼₘ 怎麼選？本節介紹兩種方法：

6.3.1 主成分分析（PCA）入門

PCA 的幾何直覺

想像你把 100 個城市的「人口數」和「廣告支出」畫成散佈圖（課本 Figure 6.14）。這兩個變數有明顯的線性關係——人口多的城市通常廣告支出也高。PCA 問：如果只能畫一條線來代表這整坨資料，這條線該怎麼畫？

約束條件：φ₁₁² + φ₂₁² = 1（避免無限放大）。得到的 zᵢ₁ 稱為主成分分數（principal component scores）——每個城市從兩個數字變成一個數字。

PCA 的 Python 實作

6.3.1 主成分迴歸（PCR）

從 PCA 到迴歸：一條龍流程

關鍵假設：X 變異最大的方向，通常也是跟 Y 最相關的方向。這個假設不保證成立，但實務上常常「夠用」。

PCR Python 實作

PCR 的 Bias-Variance 取捨

課本 Figure 6.18 用兩個模擬資料集展示了 PCR 的典型 U 型曲線：M 太小 → 高偏差（漏掉重要訊號）；M 太大 → 高變異（接近最小平方法，過度擬合）。關鍵在於交叉驗證找到「甜蜜點」。

6.3.2 偏最小平方法（PLS）

PLS 的核心創新：讓 Y 來「監督」降維

PCR 有一個根本的盲點：PCA 看的是「X 自己的變異」，但變異最大的方向 ≠ 最會預測 Y 的方向。想像你的 Y 是「銷售額」，而 X 變數中有一個是「當天氣溫」——氣溫的變異很大，但可能跟銷售額幾乎無關。PCA 會把大量權重分配給氣溫，但對預測銷售額沒有幫助。

PLS 的解法：讓 Y 參與方向選擇。計算第一 PLS 方向時，每個 φⱼ₁ 設為「Y 對 Xⱼ 的簡單線性迴歸係數」——也就是說，跟 Y 相關性愈高的變數，權重愈大。

算出 Z₁ 後，把每個 Xⱼ 對 Z₁ 做迴歸取殘差（去除已解釋的部分），再用殘差重複上述步驟找 Z₂。重複 M 次，最後用全部 Z₁…Zₘ 對 Y 做最小平方法。

PLS Python 實作

三種方法的優缺點對照

✅ PCR 優點

降維直覺：保留最多 X 變異的方向
與 ridge regression 有數學聯繫，理論完整
當訊號集中在前幾個主成分時表現極佳
sklearn 實作簡單成熟

❌ PCR 缺點

非監督式——可能保留對 Y 無用的高變異方向
不可解釋：每個主成分是所有原始變數的組合
需要標準化，對尺度敏感
M 需要用交叉驗證挑選，增加計算成本

✅ PLS 優點

監督式降維，方向與 Y 相關
在 p ≫ n 的高維情境（如光譜資料）表現優異
同時使用 X 和 Y 的資訊，理論上更有效率

❌ PLS 缺點

監督式未必優於非監督式——可能增加變異
實務上常常不比 ridge / PCR 好
迭代殘差計算可能累積數值誤差
需要同時標準化 X 和 Y

方法比較總表

特性	子集選擇 (6.1)	Ridge (6.2)	Lasso (6.2)	PCR (6.3.1)	PLS (6.3.2)
降維方式	直接挑選變數	收縮係數	收縮＋稀疏	PCA 轉換，非監督	PLS 轉換，監督式
使用原始變數？	✅ 是	✅ 是	✅ 是	❌ 線性組合	❌ 線性組合
可解釋性	⭐⭐⭐ 高	⭐⭐ 中	⭐⭐⭐ 高	⭐ 低	⭐ 低
特徵選取	✅ 是	❌ 否	✅ 是	❌ 否	❌ 否
p ≫ n 適用	❌ 不佳	✅ 可	✅ 可	✅ 可	✅ 可
使用 Y 資訊	✅（透過 CV）	✅（透過 CV）	✅（透過 CV）	❌（僅 PCA）	✅（監督式）
調參數	選取變數數 k	λ（懲罰強度）	λ（懲罰強度）	M（主成分數）	M（PLS 方向數）

應用場景

🏭 化學計量學 — 近紅外光譜分析（PLS 主場）

用近紅外光譜儀掃描樣本得到 1000+ 個波長的吸收值（p ≫ n），要預測樣本的含水量（Y）。PLS 的監督式降維在這個領域是黃金標準——它自動把跟含水量最相關的波長賦予高權重。

📊 金融風控 — 信用評分建模（PCR 應用）

銀行有 50+ 個客戶特徵（收入、負債比、過往還款紀錄、職業類別……），但許多彼此高度相關。先用 PCR 將變數壓縮成 5-8 個主成分，再用這些主成分建立違約預測模型，既減少共線性問題，又維持預測力。

🧬 基因表現資料 — 癌症分類（PCR/PLS 通用）

基因晶片同時測量 20,000 個基因的表現量（p=20000），但只有 100 個病患樣本（n=100）。PCR 或 PLS 可將 20,000 維壓縮到 10-20 維，再進行癌症亞型分類——這是 p ≫ n 情境的經典解法。

💡 來自 PCA 的系統設計啟發：正交分離原則

PCA 教我們一個深刻的設計原則：將高維混亂拆解為互相獨立（正交）的低維組件。每個主成分彼此不相關（Cov(Zᵢ, Zⱼ) = 0），所以你可以獨立地分析每個成分的貢獻，而不必擔心交互作用。

這個原則可以直接應用到 AI agent 系統設計：

子 agent 隔離：像 PCA 的主成分一樣，每個子 agent 處理一個「正交」的任務面向（如：一個管 PDF 解析、一個管程式碼生成、一個管部署驗證），彼此不共享狀態，避免交互耦合。
訊息壓縮：子 agent 回傳的不是原始資料，而是「摘要嵌入」——就像 PCA 將 p 維壓縮到 M 維，摘要保留最重要訊號、丟掉雜訊。
變異解釋率 → 任務優先級：PCA 的 explained_variance_ratio_ 告訴你哪些成分最重要。同理，你可以追蹤每個子 agent 的「貢獻度」，優先分配資源給高影響力的任務。

降維不是丟掉資訊，而是用更少的座標軸，畫出同一幅圖。 — ISLP §6.3 核心精神

← 6.2 收縮方法 📑 課程首頁 6.4 高維度資料 →