【技術實現步驟摘要】
一種多類圖像半監督分類方法及系統
本申請涉及數據挖掘、機器學習及模式分類
,特別是涉及一種多類圖像半監督分類方法及系統。
技術介紹
隨著信息和數據爆炸時代的到來,分類技術成為數據挖掘、模式識別等領域中最重要的研究課題之一。分類主要實現未知類別的數據的歸類,在醫療數據分析、信用卡的信用分級和圖像分類等領域有著重大的意義,一旦研究成功并投入應用,將產生巨大的社會和經濟效益。但是真實世界中的數據(例如互聯網中的圖像)大多是無類別標簽的,且樣本的人工標定過程非常費時費力且昂貴,使得數據的準確分類有一定難度。最近,基于相似圖構造的半監督學習方法在數據挖掘和模式分類等相關領域已經興起成為強大而流行的有效工具。基于真實世界中的數據特點,半監督學習主要通過有標定樣本的類別,和有標簽與無標簽樣本間的相似性,揭示出無標簽樣本的類別。近年來,由于基于標簽傳播理論的學習過程具有簡單有效、快速等優點,故已成為半監督學習的典型代表之一。作為一種基于圖的半監督學習方法,標簽傳播根據有標簽和無標簽樣本間的內在關聯信息,將有標簽樣本的標簽信息傳播給無標簽樣本,完成無標簽樣本的類別估計。標簽傳播用于半監督分類的思想于2002年由Zhu等人提出,因其效率高、復雜度低等優點引起國內外學者廣泛關注,并逐漸被證實為一種簡單、速度極快、可擴展性強、性能較為穩定的算法,并被廣泛的運用在許多領域,如社交網絡中的社會關系分析、多媒體信息檢索分類等。經典的標簽傳播算法包括GFHF、LLGC、LNP和SLP等。目前幾乎所有的研究都著眼于改進相似圖的構建來提高分類性能,也取得了一些成績。但是現有方法仍有一些 ...
【技術保護點】
一種多類圖像半監督分類方法,其特征在于,包括:對訓練集中的有標簽圖像樣本和無標簽圖像樣本進行相似性學習,構造相似近鄰圖,計算得到權重系數矩陣,并對所述權重系數矩陣進行對稱化、歸一化處理;根據所述訓練集中有標簽圖像樣本的類別標簽信息,初始化一個類標簽矩陣,其中,所述類標簽矩陣中額外添加第(c+1)類用于檢測異類/未發現的新穎類,c為有標簽圖像樣本的總類別數;引入l2,1?范數正則化技術,非負約束,以及列和為1的約束,并基于所述類標簽矩陣及對稱化、歸一化處理后的權重系數矩陣進行非負稀疏標簽傳播的迭代過程,得到“軟類別標簽”預測矩陣;根據所述“軟類別標簽”預測矩陣表征的相似性概率,預測所述訓練集中無標簽圖像樣本的準確類別,得到直推式圖像分類結果,訓練完成半監督分類建模,生成訓練模型;利用所述訓練模型對測試集中的無標簽待分類的圖像樣本進行類別信息的預測,得到所述測試集中的無標簽待分類的圖像樣本的類別標簽,以實現對訓練集以外數據的歸納過程。
【技術特征摘要】
1.一種多類圖像半監督分類方法,其特征在于,包括:對訓練集中的有標簽圖像樣本和無標簽圖像樣本進行相似性學習,構造相似近鄰圖,計算得到權重系數矩陣,并對所述權重系數矩陣進行對稱化、歸一化處理;根據所述訓練集中有標簽圖像樣本的類別標簽信息,初始化一個類標簽矩陣,其中,所述類標簽矩陣中額外添加第c+1類用于檢測異類/未發現的新穎類,c為有標簽圖像樣本的總類別數;引入l2,1-范數正則化技術,非負約束,以及列和為1的約束,并基于所述類標簽矩陣及對稱化、歸一化處理后的權重系數矩陣進行非負稀疏標簽傳播的迭代過程,得到“軟類別標簽”預測矩陣;根據所述“軟類別標簽”預測矩陣表征的相似性概率,預測所述訓練集中無標簽圖像樣本的準確類別,得到直推式圖像分類結果,訓練完成半監督分類建模,生成訓練模型;利用所述訓練模型對測試集中的無標簽待分類的圖像樣本進行類別信息的預測,得到所述測試集中的無標簽待分類的圖像樣本的類別標簽,以實現對訓練集以外數據的歸納過程;其中,所述對訓練集中的有標簽圖像樣本和無標簽圖像樣本進行相似性學習,構造相似近鄰圖,計算得到權重系數矩陣,對所述權重系數矩陣進行對稱化、歸一化處理的過程為:基于所述訓練集進行K最近鄰搜索,構造近鄰圖G,找出所述訓練集中每個圖像樣本的K個最近鄰的圖像樣本,所述訓練集中的圖像樣本包括有標簽圖像樣本和無標簽圖像樣本;采用LocallyLinearEmbedding,LLE-重構權的構造方法,計算、衡量近鄰圖G中的頂點之間的相似性,構造權重系數矩陣;將所述權重系數矩陣進行各行求和得到一個對角矩陣,其中,所述對角矩陣中的對角元素表征各個頂點在圖中的重要性;將所述權重系數矩陣對稱化處理后,利用所述對角矩陣對其進行歸一化處理,得到歸一化后的權重系數矩陣。2.根據權利要求1所述的方法,其特征在于,所述訓練集和測試集的生成過程為:接收圖像樣本集合,并將圖像進行向量化描述;從進行向量化描述后的圖像樣本集合中選出部分圖像樣本數據作為訓練集,其余的圖像樣本數據作為測試集,其中,所述訓練集中包含少量有標簽圖像樣本和適量的無標簽圖像樣本,所述測試集中包含大量無標簽的待分類圖像樣本。3.根據權利要求1所述的方法,其特征在于,所述根據所述訓練集中有標簽圖像樣本的類別標簽信息,初始化一個類標簽矩陣的過程為:初始化定義一個行、列數分別為c+1和N的類標簽矩陣Y來表征所述訓練集中所有圖像樣本的原始標簽信息,其中,所述類標簽矩陣Y中的所有元素均初始化為0;N是圖像樣本的總數;對有標簽圖像樣本,若有標簽圖像樣本xj屬于第i類,令Y(i,j)=1,其中類別標簽i屬于集合{1,2,…,c};對于無標簽圖像樣本,若無標簽圖像樣本xj屬于第c+1類,令Y(i,j)=1,即上述的異類或未發現的新穎類樣本。4.根據權利要求3所述的方法,其特征在于,所述引入l2,1-范數正則化技術,非負約束,以及列和為1的約束,并基于所述類標簽矩陣及權重系數矩陣進行非負稀疏標簽傳播的迭代過程,得到“軟類別標簽”預測矩陣的過程為:對標簽傳播算法加入l2,1-范數正則化約束,非負約束,以及列和為一約束,保證基于所述類標簽矩陣及權重系數矩陣進行非負稀疏標簽傳播的迭代過程中,傳播的標簽信息總是非負和足夠稀疏的,其中,非負約束具體為:“軟類別標簽”預測標簽矩陣F=[f1,f2,…,fN]中的元素總是非負的,滿足任意fi≥0;列和為一約束具體為:對F中的任意一個fi,滿足eTfi=1;通過迭代過程,圖像樣本的標簽信息得以充分傳播,相鄰頂點具有相似的標簽信息,結果以“軟類別標簽”形式的預測標簽矩陣輸出,其中,各列fi中的元素即為圖像樣本屬于各...
【專利技術屬性】
技術研發人員:張召,梁雨宸,李凡長,張莉,
申請(專利權)人:蘇州大學,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。