- 用於數據轉換的PCA
- PCA的中心跟新軸
- 哪些數據可用於PCA
- 軸何時佔主導位置
- 複合特徵
- 最大方差與訊息損失
- 用於特徵轉換的PCA
- PCA的回顧與定義
- sklearn中的PCA
- 何時使用PCA
- 用於人臉辨識的PCA
- Pricipal Component Analysis: PCA是將舊座標系統透過平移,旋轉的方式轉換成新座標系統。
- X軸: 資料變化的主軸
- Y軸: 重要性較低的變化方向。
- 新中心: PCA新座標的中心將是資料集分布的中心點。
- x': 當在舊座標系統下移1格(-1), 新座標系統的x平移2格(2 = 5 - 3)。
- y': 當在舊座標系統右移1格(1), 新座標系統的y上移2格(2 = 5 - 3)。
- 基本上,PCA可以用來分析各種不同數據的分佈。
- 下圖(中)的數據分佈,即使轉換到新座標系統,資料分布在兩個不同軸仍佔相同範圍,此時軸就不佔主導位置。
- 將兩個獨立特徵(房間數量跟房子大小),透過PCA轉化成一個複合特徵。
- 壓縮特徵空間維度。
- 何謂最大方差(variance) ?
- 從ML的角度解釋: 一個算法願意學習的程度。
- 從統計學的角度解釋: 數據的大致分布。
- 最大方差的優點 ?
- 當數據沿著最大方差的維度進行映射時,可以最大程度保留原始數據的信息量。
- 訊息損失 ?
- 數據到最大方差的維度的距離。
- 訊息損失量跟此距離此成比例的。
- 當將方差進行最大化時,實際上就是將點到該線投影的距離進行最小化。
- 透過人工方式進行特徵組合,是不合理的,當有上萬個特徵時,是很難由人工進行特徵組合。
- 正確做法,將所有特徵直接丟入PCA之中,讓PCA來自動將這些特徵組合成一些新特徵。
- PCA是將輸入特徵轉化成其主成分的系統方式。
- 這些主成份可以當作新的組合特徵。
- 主成份的定義是數據沿著最大方差的方向進行映射。
- 數據因特定主成分而產生的方差越大,那麼該主成份的級別越高。
- 這些主成份在數學角度是相互垂直的,也就是說不同的主成份間不會有重疊。
- 主成份的數量是有上限,最多就是跟原始的特徵數量相同。
- 找出data中的隱藏特徵。
- 降低維度。
- 可視化數據。
- 減少噪音數據(透過找出主成份)。
- 當作數據的預處理,讓其他算法表現更好。
- 為什麼PCA在人臉辨識上有不錯的效果?
- 人臉照片通常有很高的輸入維度(很多像素)。
- 人臉具有一些一般性形態,這些型態可以用較小的維度方式來補抓,比如眼睛數目,位置等。
- Faces recognition example using eigenfaces and SVMs