【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及數(shù)據(jù)挖掘領(lǐng)域,特別涉及一種稀疏模糊C均值聚類方法。
技術(shù)介紹
模糊C均值聚類算法(FCM)是一種重要的聚類算法。該方法在1973年由Dunn首先提出,并在1981年由Bezdek改進。此后,F(xiàn)CM在模式識別、機器學(xué)習(xí)、數(shù)據(jù)挖掘、生物信息學(xué)等領(lǐng)域得到了非常廣泛的應(yīng)用,成為一種經(jīng)典的聚類算法。然而,近十幾年來,隨著信息技術(shù)的發(fā)展,高維數(shù)據(jù)變得越來越普遍。高維數(shù)據(jù)因其固有的特點,如信息冗余、無用信息多等,使得很多傳統(tǒng)的聚類方法(如K均值聚類、層次聚類、模糊C均值聚類等)在高維數(shù)據(jù)上的聚類效果較差,常常不能得到好的聚類結(jié)果。圖I展示了一個FCM不能得到較好的聚類結(jié)果的例子。在該例子中,數(shù)據(jù)是一個簡單的二維數(shù)據(jù)。該數(shù)據(jù)只在Xl方向上有區(qū)分能力,在x2方向上無區(qū)分能力。圖I (a)是該數(shù)據(jù)的真實分類情況。圖I (b)是FCM在該數(shù)據(jù)上的聚類結(jié)果。可以看到,F(xiàn)CM在這個數(shù)據(jù)集上聚類結(jié)果較差,因為x2方向上無用的信息干擾了真正起作用的Xl方向上的信息。如果只將FCM作用于xl方向而忽略x2方向,F(xiàn)CM的聚類效果較好,如附圖說明圖1(c)所示。從這個例子中可以看到,如果高維數(shù)據(jù)中有許多無用的信息(對聚簇沒有區(qū)分能力的維度),那些無用的信息會干擾有用信息,從而使傳統(tǒng)的FCM算法聚類效果變差。另外,高維數(shù)據(jù)屬性很多,其中不乏無用信息或冗余信息,這些不利于聚類結(jié)果的解釋。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的在于改進FCM在高維數(shù)據(jù)上的聚類能力,克服高維數(shù)據(jù)中無用信息對聚類信息的干擾,提出了一種稀疏模糊C均值聚類方法(SFCM),通過特征選擇來更好地對高維數(shù)據(jù)進行聚類,提高 ...
【技術(shù)保護點】
稀疏模糊C均值聚類方法,其特征在于,包括以下步驟:(1)、設(shè){x1,x2,...,xn},xi∈Rp為n個待聚類的點,V={v1,v2,...,vK}為當(dāng)前的K個類中心,U=(uik)為隸屬度矩陣,uik表示xi屬于第k類的隸屬度;(2)、將FCM算法的最小化類內(nèi)方差的目標(biāo)函數(shù)改寫為若干函數(shù)項的和的形式,其中每一函數(shù)項只跟一個屬性有關(guān);(3)、將步驟(2)得到的若干函數(shù)項的和改寫為對應(yīng)的最大化類間方差;(4)、給每一個屬性賦予一個權(quán)重wj,p個權(quán)重值構(gòu)成權(quán)重w;將步驟(3)中對應(yīng)的函數(shù)項乘以該權(quán)重wj,最大化類間方差的目標(biāo)函數(shù)變成一個對屬性加權(quán)后的類間方差,并給權(quán)重以L1和L2范數(shù)約束,得到加權(quán)后的函數(shù);(5)通過輪流固定隸屬度uik和權(quán)重wj的迭代求解步驟(4)加權(quán)后的目標(biāo)函數(shù),迭代終止時得到聚類結(jié)果和選擇出的屬性集。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:馮國燦,黎培興,丘憲恩,邱燕藝,湯鑫,
申請(專利權(quán))人:中山大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。