-
Gaussian Mixture Model Clustering (GMM): 假設每個cluster都遵循特定的統計分佈,利用概率跟統計的方式來找出這些cluster。
-
Normal Distribution: 高斯分佈,現實中的許多數據集都是近似這樣的分佈 ex.考試成績,人的身高..。
- 平均值,標準差,分布區域
- 68%, 95%, 99%
- 一維高斯混合模型
- 透過GMM,可以順利將這樣一維混合高斯模型順利拆分出來。
- 同心圓由內到外的三個範圍剛好是68%, 95%, 99%。
- 二維高斯混合模型
- 透過GMM,可以順利將這樣二維混合高斯模型順利拆分出來。
Expectation - Maximization Algorithm:
- 流程:
- 先初始化K個高斯分佈 (ex. K=2)
- 對數據進行軟聚類成我們初始化的K個高斯分佈(Expectation)
- 基於軟聚類重新估計高斯(Maximization)
- 利用評估對數檢查收斂狀況
- 收斂: 返回結果
- 未收斂: 重新step2
- 先決定只有K個高斯(這裡的K=2)。
- 在替每個高斯決定隨機均值跟隨機方差。
- 計算每個點對於每個聚類的隸屬度。
- 公式: 正態分布的機率密度函數。
- Z: 隱藏變量(潛在變量)
- 0.99976 = 99.97% 表示我們有99.97%確定這個點屬於cluster A。
- 根據step2的隸屬度重新計算每個高斯的均值跟方差。
-
GMM針對不同的初始化,會有不同結果。
- Initialization, convariance_type
-
在期望最大化算法的第一步中如何初始化高斯参数很重要,好的初始化會幫助算法收敛到最佳值
-
優點:
- 提供軟聚類(sample有一對多的可能性, ex.文檔分類,每個文檔可能有多個主題)
- 彈性聚類外觀(一個聚類可能包含另外一個聚類)
-
缺點:
- 對初始值敏感。
- 可能收斂到局部最佳。
- 收斂速度慢。
- Cluster Analysis: 如何從數據中得到知識。
- step1: 特徵選擇和特徵提取。
- 特徵選擇: 從一組候選特徵中選擇特徵。
- 特徵提取: 是對特徵進行轉換,以生成新的有用特徵(PCA)。
- step2: 選擇聚類算法。
- 根據要做什麼和數據外觀,必須透過實驗來選擇最好的聚類算法。
- step3: 聚類評價。
- 透過一些指標來評估聚類的效果如何。
- step4: 聚類結果解釋。
- 需要專業領域的知識為結果進行標籤。
- step1: 特徵選擇和特徵提取。
-
Cluster Validation
- 外部指標: 當數據是標籤的時候使用。
- 內部指標: 當數據是沒有標籤,大部分的非監督學習都是這情況。
- 相對指標: 表明兩個聚類哪一個在某個意義上比較好。(基本上所有外部指標都可以當作相對指標)
-
評價指標都是通過緊湊性和可分性來定義的。
- 常見的外部評價指標
- 蘭德係數計算
- 不同cluster結果跟ground truth的蘭德係數。
- 常見的內部評價指標
- 輪廓係數的計算
- a: 同一個cluster中到其他樣本的平均距離。
- b: 與距離最近的cluster中的樣本的平均距離。
- 不同cluster結果的輪廓係數。
- 輪廓係數的限制
- 無法對於雙環結構進行正確評分。
- 無法對於DBSCAN進行正確評分。