Skip to content

Latest commit

 

History

History
127 lines (78 loc) · 4.74 KB

File metadata and controls

127 lines (78 loc) · 4.74 KB

PCA

Agenda

Note

用於數據轉換的PCA

  • Pricipal Component Analysis: PCA是將舊座標系統透過平移,旋轉的方式轉換成新座標系統。
    • X軸: 資料變化的主軸
    • Y軸: 重要性較低的變化方向。

439

PCA的中心跟新軸

  • 新中心: PCA新座標的中心將是資料集分布的中心點。
  • x': 當在舊座標系統下移1格(-1), 新座標系統的x平移2格(2 = 5 - 3)。
  • y': 當在舊座標系統右移1格(1), 新座標系統的y上移2格(2 = 5 - 3)。

440

哪些數據可用於PCA

  • 基本上,PCA可以用來分析各種不同數據的分佈。

441

軸何時佔主導位置

  • 下圖(中)的數據分佈,即使轉換到新座標系統,資料分布在兩個不同軸仍佔相同範圍,此時軸就不佔主導位置。

442

複合特徵

  • 將兩個獨立特徵(房間數量跟房子大小),透過PCA轉化成一個複合特徵。
  • 壓縮特徵空間維度。

443

最大方差與訊息損失

  • 何謂最大方差(variance) ?
    • 從ML的角度解釋: 一個算法願意學習的程度。
    • 從統計學的角度解釋: 數據的大致分布。

444

445

  • 最大方差的優點 ?
    • 當數據沿著最大方差的維度進行映射時,可以最大程度保留原始數據的信息量。

446

  • 訊息損失 ?
    • 數據到最大方差的維度的距離。
    • 訊息損失量跟此距離此成比例的。

447

  • 當將方差進行最大化時,實際上就是將點到該線投影的距離進行最小化。

448

用於特徵轉換的PCA

  • 透過人工方式進行特徵組合,是不合理的,當有上萬個特徵時,是很難由人工進行特徵組合。

449

  • 正確做法,將所有特徵直接丟入PCA之中,讓PCA來自動將這些特徵組合成一些新特徵。

450

PCA的回顧與定義

  • PCA是將輸入特徵轉化成其主成分的系統方式。
  • 這些主成份可以當作新的組合特徵。
  • 主成份的定義是數據沿著最大方差的方向進行映射。
  • 數據因特定主成分而產生的方差越大,那麼該主成份的級別越高。
  • 這些主成份在數學角度是相互垂直的,也就是說不同的主成份間不會有重疊。
  • 主成份的數量是有上限,最多就是跟原始的特徵數量相同。

451

sklearn中的PCA

452

453

何時使用PCA

  • 找出data中的隱藏特徵。
  • 降低維度。
    • 可視化數據。
    • 減少噪音數據(透過找出主成份)。
    • 當作數據的預處理,讓其他算法表現更好。

454

用於人臉辨識的PCA

  • 為什麼PCA在人臉辨識上有不錯的效果?
    • 人臉照片通常有很高的輸入維度(很多像素)。
    • 人臉具有一些一般性形態,這些型態可以用較小的維度方式來補抓,比如眼睛數目,位置等。

455

  • Faces recognition example using eigenfaces and SVMs