【技術實現步驟摘要】
本專利技術涉及數據挖掘、聚類分析、高維數據聚類等
,具體涉及一種基于集合特征向量的快速聚類方法和裝置。
技術介紹
聚類是數據挖掘領域最為常見的任務之一,用于發現在數據集中未知的對象類。對高維數據的處理能力是聚類研究的一個重要內容。許多聚類算法在維數比較低的情況下能夠生成質量比較高的聚類結果,卻難以應用于高維數據的情況,有時甚至可能會產生錯誤的聚類結果。在提出本專利技術之前,我們已經在高維數據挖掘領域,特別是高維稀疏數據挖掘領域,提出了一個有效的算法——CAB0SFV聚類算法。CAB0SFV算法從集合的角度定義了一種新的差異度計算方法,稱為“稀疏特征差異度(Sparse Feature Distance, SFD)”以此反映一個集合內部對象間的相似程度,并通過新定義的一個概念“稀疏特征向量(Sparse Feature Vector, SFV)”來概括一個對象集合所包含的全部聚類相關信息,可以方便地計算集合內對象的相似程度。稀疏特征向量能夠對數據進行有效壓縮,使得數據處理量大大減少,并且只需進行一次數據掃描就可以生成聚類結果。CAB0SFV聚類算法中差異度的計算是基于集合給出的,其定義如下:集合的稀疏差異度:假設有η個對象,描述每個對象的屬性有m個,Y為其中的一個對象子集,其中的對象個數 可以用|γ|表示,在該子集中所有對象稀疏特征取值皆為I的屬性個數為a(0 < a < m),稀 疏特征取值不全相同的屬性個數為e (O < e < m),則集合Y的稀疏差異度SFD(Y)定義為:
【技術保護點】
一種基于集合特征向量的快速聚類方法,其特征在于,包括以下步驟:(1)數據屬性轉換步驟:將輸入的混合屬性數據轉化為二值屬性;(2)數據排序步驟:按照對象稀疏性指數或不干涉序列指數對數據進行排序;(3)初次聚類步驟:該步驟包括兩個子步驟:首先,令排序后的第一個對象單獨成類,得到其集合特征向量,然后,順序掃描其余待聚類對象,如果將當前掃描到的對象并入任何一個已經創建的類中,都會使得并入后的集合差異度大于集合差異度上限b1,則創建一個新類,該新類僅包含當前掃描到的對象;否則,將當前對象并入使得并入后集合差異度最小的類中,并更新該類的集合特征向量;(4)二次聚類步驟:將初次聚類步驟得到的初次聚類結果作為輸入進行二次聚類。然后去除聚類結果中的孤立點,得到最終聚類結果。
【技術特征摘要】
1.一種基于集合特征向量的快速聚類方法,其特征在于,包括以下步驟: (1)數據屬性轉換步驟:將輸入的混合屬性數據轉化為二值屬性; (2)數據排序步驟:按照對象稀疏性指數或不干涉序列指數對數據進行排序; (3)初次聚類步驟:該步驟包括兩個子步驟: 首先,令排序后的第一個對象單獨成類,得到其集合特征向量, 然后,順序掃描其余待聚類對象,如果將當前掃描到的對象并入任何一個已經創建的類中,都會使得并入后的集合差異度大于集合差異度上限h,則創建一個新類,該新類僅包含當前掃描到的對象;否則,將當前對象并入使得并入后集合差異度最小的類中,并更新該類的集合特征向量; (4)二次聚類步驟:將初次聚類步驟得到的初次聚類結果作為輸入進行二次聚類。然后去除聚類結果中的孤立點,得到最終聚類結果。2.根據權利要求1所述的方法,其特征在于,所述步驟2)中的對象稀疏性指數是指對象屬性中取值為I的個數;所述不干涉序列指數是指不干涉序列與對象的屬性的內積,其計算方法如下:設一個二值屬性數據集X有η個對象,每個對象共有m個屬性。X為數據集X中的一個對象,其屬性值分別為(I1(X), d2(x),…,dm(x), ((Ii(X)=O或I, i=l, 2,..., m),則對象 X 的不干涉序列指數為:Q(X7M)=Cl1 (X) MJd2 (X) M2+...+(!_ (X) Mm 其中(M1, M2,…,Mm)為某選定的不干涉序列M= (M1, M2, M3,…,Mi,…)的前m項。3.根據權利要求1所述的方法,其特征在于,所述步驟3)中的集合特征向量是指集合內所有對象參與聚類所需的相關信息的特征表示向量,其定義如下:設一個二值屬性數據集有η個對象,描述每個對象的 屬性有m個,Y為其中的一個對象子集,其中的對象個數可以用IyI表示,在該子集中所有對象取值皆為I的屬性個數為a(0<a<m),對應的屬性序號為j2,...,ja,取值不全相同的屬性個數為e (O彡e彡m),對應的屬性序號為kp K2,…,ke,則向量SFV⑴=(I Y|,S(Y),NS(Y),SD(Y))稱為對象集合Y的集合特征向量。其中S(Y)為Y中所有對象取值都為I的屬性序號集合,NS (Y)為取值不全相同的屬性序號集合,SD (Y)為集合差異度;所述集合差異度是指集合內對象間的差異程度,其計算方法如下:設一個二值屬性數據集有η個對象,描述每個...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。