【技術實現步驟摘要】
本專利技術涉及軟件自動分類
,尤其涉及一種基于在線增量演化主題模型的軟件自動分類方法,該方法通過在線增量式的建立開源社區軟件文本流的主題模型,自動挖掘軟件文本流中隱含的主題,并將每一個開源軟件文本分配到挖掘得到的主題中,然后對該主題自動添加相應的語義標簽,從而實現開源軟件的自動分類。
技術介紹
開源軟件(又稱開放源代碼軟件)是一種源代碼可以任意獲取的計算機軟件。開源軟件通常是按照某種許可證協議發布的,許可證協議可以保障軟件用戶自由使用及接觸源代碼的權利,用戶可以遵照許可證協議自行修改、復制以及再分發開源軟件。開源社區又稱為開放源代碼社區,是根據相應的開源軟件許可證協議公布源代碼的平臺,當前最典型的開源社區是基于Web的托管網站,例如Sourcefbrge. net。通常開源社區中提供了較為完 善的用于輔助開源軟件開發的基礎設施(代碼庫、郵件列表和錯誤追蹤系統等),開源社區的參與者利用基礎設施建立開源軟件項目,并在社區中通過協同開發的方式完成軟件代碼的編制、測試和發布,最終形成具有特定功能并能下載使用的軟件程序。開源社區中除了包含豐富的源代碼之外,還包含大量的軟件文本,比如開發過程文本(需求、設計文檔)、郵件通信記錄、軟件測試報告和軟件描述文本等等。隨著開源軟件及其應用的飛速發展,互聯網中開源社區已經形成了規模巨大、種類豐富的開源軟件。為了有效的管理和組織海量的軟件資源,方便用戶搜索,通常將軟件按照功能、運行平臺、編程語言、開發狀態、軟件許可證等維度進行分類,其中最主要的就是按照功能分類,通常分類按照層次結構組織,每個類屬稱為一個主題,每個主題反映了軟件功能 ...
【技術保護點】
一種基于在線增量演化主題模型的軟件自動分類方法,包括下列步驟:步驟1獲取軟件相關文本,所述軟件相關文本包括開源軟件的項目名稱、項目主題標簽、項目描述文本以及項目創建時間,如果所述項目主題標簽為空,則將其設置為未標注,以預定時間片進行分組和預處理;步驟2基于擴展LDA模型,生成在線演化主題模型的概率模型,針對預處理后的以時間片分組的項目描述文本,計算最優主題個數,在最優主題個數的基礎上依據所述在線演化主題模型的概率模型增量式計算當前時間片內項目描述文本的主題詞匯分布和主題文本分布,所述主題詞匯分布和所述主題文本分布可使用矩陣表示。步驟3獲取未知分類主題的文本d,根據步驟2中生成的所有時間片的主題詞匯分布和主題文本分布計算所述文本d從屬的n個主題的主題詞匯分布,并選擇排序靠前的若干個主題作為所述文本d的文本主題,從而將所述文本d分類到相應的主題中;步驟4基于詞匯表和基于詞匯本體查詢的方法,為主題自動添加語義標簽,其中所述詞匯表基于步驟1中爬取到的所有軟件項目對應的已標注預設主題標簽構建,所述詞匯本體進行沒有匹配到任何預設標簽的聚類主題中核心詞匯的上位概念的查詢。
【技術特征摘要】
1.一種基于在線增量演化主題模型的軟件自動分類方法,包括下列步驟 步驟I獲取軟件相關文本,所述軟件相關文本包括開源軟件的項目名稱、項目主題標簽、項目描述文本以及項目創建時間,如果所述項目主題標簽為空,則將其設置為未標注,以預定時間片進行分組和預處理; 步驟2基于擴展LDA模型,生成在線演化主題模型的概率模型,針對預處理后的以時間片分組的項目描述文本,計算最優主題個數,在最優主題個數的基礎上依據所述在線演化主題模型的概率模型增量式計算當前時間片內項目描述文本的主題詞匯分布和主題文本分布,所述主題詞匯分布和所述主題文本分布可使用矩陣表示。步驟3獲取未知分類主題的文本d,根據步驟2中生成的所有時間片的主題詞匯分布和主題文本分布計算所述文本d從屬的η個主題的主題詞匯分布,并選擇排序靠前的若干個主題作為所述文本d的文本主題,從而將所述文本d分類到相應的主題中; 步驟4基于詞匯表和基于詞匯本體查詢的方法,為主題自動添加語義標簽,其中所述詞匯表基于步驟I中爬取到的所有軟件項目對應的已標注預設主題標簽構建,所述詞匯本體進行沒有匹配到任何預設標簽的聚類主題中核心詞匯的上位概念的查詢。2.如權利要求I所述的方法,其中步驟I中,所述以預定時間片進行分組進一步包括根據所述項目創建時間將所有項目描述文本按照時間升序排列,并按照時間片At為單位將所有項目描述文本分組,對每個分組的軟件相關文本進行預處理。3.如權利要求I所述的方法,其中步驟I中,所述預處理包括通過詞根提取將所述項目主題標簽轉換為其詞根,并將相同詞根的標簽合并,刪除標簽數小于預定數目的項目,針對所述項目主題標簽生成預設主題詞匯表;將項目描述文本轉換為單詞包。4.如權利要求I所述的方法,其中步驟2中,所述生成在線演化主題模型的概率模型的步驟進一步包括以步驟I中各個分組的項目名稱、項目描述文本為輸入,通過吉布斯抽樣過程對輸入數據進行訓練,生成文本流中的聚類主題及主題數目,所述聚類主題是指將項目描述文本中的詞匯進行分類,有相同特征的詞匯聚集到一起而形成的集合,集合中的詞匯稱為核心詞匯。5.如權利要求I所述的方法,其中步驟2中,所述在線演化主題模型的概率模型中使用先驗概率參數,所述先驗概率參數表示文本集合Cts中的詞匯出現之前抽樣詞匯...
【專利技術屬性】
技術研發人員:尹剛,王懷民,朱沿旭,余躍,史殿習,李翔,王濤,袁霖,
申請(專利權)人:中國人民解放軍國防科學技術大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。