K-MEANS演算法:
輸入:群族個數k,以及包含 n個資料物件的資料庫。
輸出:滿足方差最小標準的k個群族。
處理流程:
(1) 從 n個資料物件任意選擇 k 個物件作為初始群族中心;
(2) 迴圈(3)到(4)直到每個群族不再發生變化為止
(3) 根據每個群族物件的均值(中心物件),計算每個物件與這些中心物件的距離;並根據最小距離重新對相應物件進行劃分;
(4) 重新計算每個(有變化)群族的均值(中心物件) k-means 演算法接受輸入量 k ;然後將n個資料物件劃分為 k個群族以便使得所獲得的群族滿足:同一群族中的物件相似度較高;而不同群族中的物件相似度較小。群族相似度是利用各群族中物件的均值所獲得一個“中心對象”來進行計算的。
k-means 演算法的工作過程說明如下:首先從n個資料物件任意選擇 k 個物件作為初始群族中心;而對於所剩下其他物件,則根據它們與這些群族中心的相似度(距離),分別將它們分配給與其最相似的(群族中心所代表的)群族;然 後再計算每個所獲新群族的群族中心(該群族中所有物件的均值);不斷重複這一過程直到標準測度函數開始收斂為止。一般都採用均方差作為標準測度函數. k個群族具有以下特點:各群族本身盡可能的緊湊,而各群族之間盡可能的分開。
沒有留言:
張貼留言