本發明專利技術公開了一種基于自動閾值魚群算法的文本聚類方法,通過計算文本特征向量的相似度矩陣,采用相似度矩陣的每行元素獲得每個文本的初始等價劃分閾值,從而對文本進行初始等價劃分,進而確定初始聚類數目和初始聚類中心;結合采用人工魚群算法,根據全局最優和局部最優信息更新每條人工魚的狀態,以尋找全局最優聚類中心,對初始聚類結果再聚類。由于采用自動獲取閾值的方法得到初始聚類數目和初始聚類中心,并通過人工魚群算法尋找全局最優聚類中心,本發明專利技術克服了傳統聚類方法對初值敏感、僅依靠局部數據特性等弊端,可提高文本聚類的準確度與智能性。
【技術實現步驟摘要】
【技術保護點】
一種基于自動閾值魚群算法的文本聚類方法,其特征在于包括以下步驟:(1)、對N個文本對象進行預處理,包括中文分詞、去停用詞、詞頻統計、特征項提取、文本向量化,得到文本對象的特征向量:xi=Σr=1Rlr,iar;(2)、根據N個文本對象的特征向量計算每個文本對象的初始等價劃分閾值Thi,確定初始聚類數目和初始聚類中心:2.1)、計算文本對象的相似度矩陣S:其中,sim(xi,xj),1≤i≤N,1≤j≤N表示文本對象xi、xj之間的相似度;2.2)、將相似度矩陣S的每行元素按相似度從大到小排序,得到排序后的相似度矩陣S′:其中,sim(xi,xj′),1≤j′≤N表示經排序后文本對象xi與xj′之間的相似度;初始等價劃分閾值Thi的計算公式為:Thi={sim(xi,xj′)|Maxj′[sim(xi,xj′)-sim(xi,xj′+1)]},j′∈{1,2...,N-1}2.3)、根據相似度矩陣S和初始等價劃分閾值Thi計算每個文本的初始等價劃分Ri:Ri={{Pi},{U?Pi}}其中,Pi={xjsim(xi,xj)≥Thi},U={x1,x2,…,xi,…,xN};2.4)、根據每個文本的初始等價劃分Ri進行初始聚類,得到初始聚類結果 CR:CR=R1∩R2∩…∩Ri∩…∩RN={c1,c2,…,cK}其中,ck,1≤k≤K表示初始聚類結果中的一個類,K為初始聚類數目,將ck中所有文本對象特征向量的平均值作為初始第k類的聚類中心xck,初始聚類中心xck的計算公式為:xck=Σr=1Rlr,k‾ar其中p表示ck類中文本對象的個數,lr,s表示ck類中第s,1≤s≤pk個文本對象特征向量中第r個特征項的權值,是ck類中的所有文本對象特征向量中第r個特征項的權值之和;(3)、采用人工魚群算法對步驟(2)得到的初始聚類結果進行再聚類:3.1)、設置人工魚條數Total與各人工魚的初始狀態,第m條人工魚的狀態Qm,m=1,2,…,Total為數據空間中的向量,其形式與文本對象的特征向量一致;設置最大重復嘗試次數TryNumber、最大迭代次數IT、將K個初始聚類中心作為初始全局最優人工魚狀態Qbest_af,k,1≤k≤K;3.2)、對人工魚狀態進行迭代更新:在第t,1≤t≤IT次迭代更新時,依次對每條人工魚狀態進行更新,第m條人工魚的狀態為計算其適應度值Ymt=num(Qmt)π*Visual2其中,表示迭代次數為t時第m條人工魚的適應度值,表示迭代次數為t時第m條人工魚視野范圍內的文本對象個數;此時前m?1條人工魚已完成狀態更新,即當前時刻其狀態為當前時刻全局最優人工魚狀態記為其中離人工 魚距離最近的全局最優人工魚狀態記為第m條人工魚分別模擬執行以下三種行為:a.覓食行為:在第m條人工魚視野范圍內隨機選擇一個狀態若則第m條人工魚向和的向量方向前進一步:Qmt+1=Qmt+((Qnt-Qmt)+(Qnear,mt-Qmt)||(Qnt-Qmt)+(Qnear,mt-Qmt)||)·Step·Rand()其中,Rand()是一個介于0和1之間的隨機數;反之,則更新隨機選擇狀態判斷是否滿足前進條件;如果重復嘗試次數達到TryNumber次后仍不滿足條件,則第m條人工魚隨機移動一步:Qmt+1=Qmt+Visual·Rand()b.聚群行為在當前時刻的所有人工魚狀態中,計算第m條人工魚視野范圍內的人工魚同伴數目同伴中心為及其視野范圍內同伴的狀態的平均值,同伴中心的適應度值為若則第m條人工魚向和的向量方向前進一步:Qmt+1=Qmt+((Qc,mt-Qmt)+(Qnear,mt-Qmt)||(Qc,mt-Qmt)+(Qnear,mt-Qmt)||)·Step·Rand();否則第m條人工魚再重新執行一次覓食聚群行為;c.追尾行為:在當前時刻的所有人工魚狀態中,比較第m條人工魚視野范圍內各人工魚同伴的適應度值,找到適應度最大值及其對應的同伴狀態若則第m條人工魚向和的向量方向前進一步:Qmt+1=Qmt+((Qmax,mt-Qmt)+(Qmear,mt-Qmt)||(Qmax,mt-Qmt)+(Qmear,mt-Qmt)||)·Step·Rand()否則第m條人工魚再重新...
【技術特征摘要】
【專利技術屬性】
技術研發人員:孫健,梁雪芬,徐杰,隆克平,艾麗麗,周云龍,唐明,王曉麗,
申請(專利權)人:電子科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。