• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于在線增量演化主題模型的軟件自動分類方法技術

    技術編號:8271425 閱讀:216 留言:0更新日期:2013-01-31 03:38
    一種基于在線增量演化主題模型的軟件自動分類方法,包括獲取軟件相關文本,以預定時間片進行分組和預處理;生成在線演化主題模型的概率模型,針對以時間片分組的項目描述文本,計算最優主題個數,增量式計算當前時間片內項目描述文本的主題詞匯分布和主題文本分布;獲取未知分類主題的文本d,根據主題詞匯分布和主題文本分布計算文本d從屬的n個主題的主題詞匯分布,所述文本d分類到相應的主題中基于詞匯表和基于詞匯本體查詢,為主題自動添加語義標簽,最終完成軟件項目的分類。能夠及時發現開源社區出現的新主題,并對軟件項目進行自動分類,方便軟件開發者依據軟件主題搜索需要的開源軟件項目,從而提高軟件開發的效率,提高開源社區質量和保障。

    【技術實現步驟摘要】
    本專利技術涉及軟件自動分類
    ,尤其涉及一種基于在線增量演化主題模型的軟件自動分類方法,該方法通過在線增量式的建立開源社區軟件文本流的主題模型,自動挖掘軟件文本流中隱含的主題,并將每一個開源軟件文本分配到挖掘得到的主題中,然后對該主題自動添加相應的語義標簽,從而實現開源軟件的自動分類。
    技術介紹
    開源軟件(又稱開放源代碼軟件)是一種源代碼可以任意獲取的計算機軟件。開源軟件通常是按照某種許可證協議發布的,許可證協議可以保障軟件用戶自由使用及接觸源代碼的權利,用戶可以遵照許可證協議自行修改、復制以及再分發開源軟件。開源社區又稱為開放源代碼社區,是根據相應的開源軟件許可證協議公布源代碼的平臺,當前最典型的開源社區是基于Web的托管網站,例如Sourcefbrge. net。通常開源社區中提供了較為完 善的用于輔助開源軟件開發的基礎設施(代碼庫、郵件列表和錯誤追蹤系統等),開源社區的參與者利用基礎設施建立開源軟件項目,并在社區中通過協同開發的方式完成軟件代碼的編制、測試和發布,最終形成具有特定功能并能下載使用的軟件程序。開源社區中除了包含豐富的源代碼之外,還包含大量的軟件文本,比如開發過程文本(需求、設計文檔)、郵件通信記錄、軟件測試報告和軟件描述文本等等。隨著開源軟件及其應用的飛速發展,互聯網中開源社區已經形成了規模巨大、種類豐富的開源軟件。為了有效的管理和組織海量的軟件資源,方便用戶搜索,通常將軟件按照功能、運行平臺、編程語言、開發狀態、軟件許可證等維度進行分類,其中最主要的就是按照功能分類,通常分類按照層次結構組織,每個類屬稱為一個主題,每個主題反映了軟件功能應用的領域,在此我們將這種主題的層次結構稱為軟件主題分類本體(taxonomy)。用戶通過瀏覽主題分類本體,可以從指定的分類中進一步查找自己需要的軟件。軟件主題分類本體對于瀏覽式的軟件搜索是至關重要的。軟件主題分類本體是由各軟件社區的組織者制定的,每個軟件提交者根據軟件的功能參照主題分類本體為軟件選擇最合適的一個或多個主題。為了選擇每一個適合軟件的主題,軟件提交者需要瀏覽整個軟件分類本體,這通常會使他們感到不方便,很多提交者可能會由于缺乏耐心而放棄選擇主題,或者直接選擇無主題;另外,由于分類本體的局限性,提交者很有可能在主題分類本體中找不到適合自己軟件的主題。所以通過人工的方式為軟件項目選擇主題,開銷將是巨大的,如何為軟件進行自動分類成為了極具挑戰的問題。現有的軟件自動分類方法通常利用軟件文本(比如代碼、注釋、開發過程文本、開發日志、網頁等等)來表征軟件,通過文本分類和挖掘領域的技術對軟件文本進行自動分類,從而間接實現對軟件的自動分類。現有的軟件自動分類方法主要基于主題挖掘技術,通過建立軟件文本主題模型,將軟件文本集合按照主題進行聚類,聚類的結果是每個軟件文本自動歸屬于某個聚類主題,從而達到軟件自動分類的目標,這類方法最主要的局限有兩個(1)聚類主題通常都只是用特征關鍵詞列表表示,而沒有使用語義類標來標注這些聚類,要判斷一個主題的語義需要人工判斷,目前也有研究提出了標注方法,但是需要利用非軟件領域的第三方詞匯本體比如wordnet,增加了復雜度,效果并不理想;(2)開源社區的軟件文本集合通常都是以很快的速度增長,大量新詞匯的出現增長和消亡的演化規律決定了文本主題也是隨時間演化的,那么如果按照靜態的主題發現方法,就會生成錯誤的軟件分類,所以需要動態挖掘文本主題在線演化的規律。比如,通過分析ceForge社區在2003年和2011年關于Internet主題的分類本體(taxonomy),發現由于社區主題的演化,相對于03年的分類本體,2011年的本體新增了很多項,如blogging、wiki等,這些項是社區的設計者根據社區內項目主題的變化,人為修改增加的。(3)開源社區中的軟件文本集合是龐大的,同時主題挖掘技術的開銷是巨大的,如果利用主題挖掘技術對開源社區的所有文本進行挖掘是不現實的,所以需要提供一種更高效的分類方法。LDA (潛式狄利克雷分布 Latent Dirichlet Allocation)主題模型是D. Μ· Blei 在2003年提出的一種產生式的(Generative)概率主題模型(Probabilistic Topic Model),它是在潛在語義分析LSA(Latent Semantic Analysis)模型的基礎上發展而來的。LDA模型的基本假設是文本是主題的混合,其中主題是詞空間上的分布。LDA模型是一種文本的生成模型,它描述了用來生成文本的概率過程(probabilistic procedure)。Gibbs抽樣 方法是針對擴展的LDA模型的參數推理方法,擴展的LDA模型是在原始的LDA模型基礎上使用參數β控制的狄利克雷先驗分布作為主題詞匯分布,擴展后的主題概率模型為主要由兩個參數控制參數α和β,其中α代表主題文本分布Θ的參數,β代表主題詞匯分布 Φ 的參數,詳細可參考文獻([l]Griffiths T. , Steyvers M. . Finding ScientificTopics[C]. Proceedings Of The National Academy Of Sciences,2004,101(Suppl I)5228. [2]Griffiths T. . Gibbs Sampling In the Generative Model of Latent DirichletAllocation[M]. Standford University http://www-psych. Stanford, edu/ gruffydd/cogsci02/l.)。其中,Φ和Θ為Gibbs抽樣方法的結果,利用輸出結果Φ可以清楚地了解每一個詞匯在給定主題中的分布概率;利用輸出結果Θ可以了解每一個文本在每個主題中的分布概率。將分布概率最高(或者分布概率按照大小排序靠前的k個主題)的主題作為文本的類屬,可以實現對文本進行分類的目的。LDA模型的Gibbs抽樣方法的輸入是文本集合C和主題個數T,輸出就是Φ和Θ。通常互聯網中的文本集合是隨著時間的推移而不斷增長的,這些文本集合都表現為在線的文本流,新文本的不斷涌現導致新詞匯的出現,新詞匯往往經歷著發展、流行和消亡的演化周期,這將導致文本集合的主題會隨著時間發生演化,挖掘在線文本流的主題演化規律是正確分析文本類屬的關鍵。Qi He等人給出了在線主題演化的問題描述對于文本集合C,按照時間片(time slice)將文本流劃分為一個一個的片段(本文中用時間片直接表示文本流片段),即C = UL1 C(t)(其中n表示時間片的個數),利用基于LDA模型的Gibbs抽樣方法分別對每一個時間片中的文本集合進行主題挖掘,得到輸出結果Φ (t)和0(t)。Φ (t)和Θ (t)分別表示時間片t中發生的文本流C(t)中的T(t)個主題的主題詞匯分布和主題文本分布。現有的在線文本流主題挖掘技術是分析時間片t的主題分布與時間片t-Ι的主題分布之間的演化關系,利用上一時間片的計算結果Φ (t-Ι)和Θ (t-Ι)推算當前時間片的Φ (t)和Θ (t)結果。傳統的基于相鄰時間片的演化主題模型只能反映前本文檔來自技高網...

    【技術保護點】
    一種基于在線增量演化主題模型的軟件自動分類方法,包括下列步驟:步驟1獲取軟件相關文本,所述軟件相關文本包括開源軟件的項目名稱、項目主題標簽、項目描述文本以及項目創建時間,如果所述項目主題標簽為空,則將其設置為未標注,以預定時間片進行分組和預處理;步驟2基于擴展LDA模型,生成在線演化主題模型的概率模型,針對預處理后的以時間片分組的項目描述文本,計算最優主題個數,在最優主題個數的基礎上依據所述在線演化主題模型的概率模型增量式計算當前時間片內項目描述文本的主題詞匯分布和主題文本分布,所述主題詞匯分布和所述主題文本分布可使用矩陣表示。步驟3獲取未知分類主題的文本d,根據步驟2中生成的所有時間片的主題詞匯分布和主題文本分布計算所述文本d從屬的n個主題的主題詞匯分布,并選擇排序靠前的若干個主題作為所述文本d的文本主題,從而將所述文本d分類到相應的主題中;步驟4基于詞匯表和基于詞匯本體查詢的方法,為主題自動添加語義標簽,其中所述詞匯表基于步驟1中爬取到的所有軟件項目對應的已標注預設主題標簽構建,所述詞匯本體進行沒有匹配到任何預設標簽的聚類主題中核心詞匯的上位概念的查詢。

    【技術特征摘要】
    1.一種基于在線增量演化主題模型的軟件自動分類方法,包括下列步驟 步驟I獲取軟件相關文本,所述軟件相關文本包括開源軟件的項目名稱、項目主題標簽、項目描述文本以及項目創建時間,如果所述項目主題標簽為空,則將其設置為未標注,以預定時間片進行分組和預處理; 步驟2基于擴展LDA模型,生成在線演化主題模型的概率模型,針對預處理后的以時間片分組的項目描述文本,計算最優主題個數,在最優主題個數的基礎上依據所述在線演化主題模型的概率模型增量式計算當前時間片內項目描述文本的主題詞匯分布和主題文本分布,所述主題詞匯分布和所述主題文本分布可使用矩陣表示。步驟3獲取未知分類主題的文本d,根據步驟2中生成的所有時間片的主題詞匯分布和主題文本分布計算所述文本d從屬的η個主題的主題詞匯分布,并選擇排序靠前的若干個主題作為所述文本d的文本主題,從而將所述文本d分類到相應的主題中; 步驟4基于詞匯表和基于詞匯本體查詢的方法,為主題自動添加語義標簽,其中所述詞匯表基于步驟I中爬取到的所有軟件項目對應的已標注預設主題標簽構建,所述詞匯本體進行沒有匹配到任何預設標簽的聚類主題中核心詞匯的上位概念的查詢。2.如權利要求I所述的方法,其中步驟I中,所述以預定時間片進行分組進一步包括根據所述項目創建時間將所有項目描述文本按照時間升序排列,并按照時間片At為單位將所有項目描述文本分組,對每個分組的軟件相關文本進行預處理。3.如權利要求I所述的方法,其中步驟I中,所述預處理包括通過詞根提取將所述項目主題標簽轉換為其詞根,并將相同詞根的標簽合并,刪除標簽數小于預定數目的項目,針對所述項目主題標簽生成預設主題詞匯表;將項目描述文本轉換為單詞包。4.如權利要求I所述的方法,其中步驟2中,所述生成在線演化主題模型的概率模型的步驟進一步包括以步驟I中各個分組的項目名稱、項目描述文本為輸入,通過吉布斯抽樣過程對輸入數據進行訓練,生成文本流中的聚類主題及主題數目,所述聚類主題是指將項目描述文本中的詞匯進行分類,有相同特征的詞匯聚集到一起而形成的集合,集合中的詞匯稱為核心詞匯。5.如權利要求I所述的方法,其中步驟2中,所述在線演化主題模型的概率模型中使用先驗概率參數,所述先驗概率參數表示文本集合Cts中的詞匯出現之前抽樣詞匯...

    【專利技術屬性】
    技術研發人員:尹剛王懷民朱沿旭余躍史殿習李翔王濤袁霖
    申請(專利權)人:中國人民解放軍國防科學技術大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩精品A∨片无码加勒比| 人妻无码久久久久久久久久久| 无码国内精品人妻少妇| 国产一区二区三区无码免费| 精品久久久久久无码人妻热| 免费无码又爽又刺激高潮视频| 成人免费无码大片A毛片抽搐| 亚洲人成影院在线无码按摩店| 无码国产精品一区二区免费式影视| 亚洲AV无码不卡在线观看下载| 少妇无码一区二区三区| 无码精品人妻一区| 毛片免费全部播放无码| 久久亚洲av无码精品浪潮 | 毛片免费全部播放无码| 人妻丰满熟妇aⅴ无码| 日韩成人无码一区二区三区| 精品无码一区在线观看 | 国产做无码视频在线观看浪潮 | 亚洲爆乳少妇无码激情| 国产AV无码专区亚洲Av| 国产成人无码免费网站| 67194成是人免费无码| 亚洲一区无码中文字幕乱码| 国产免费无码AV片在线观看不卡| 精品人妻无码专区在中文字幕| 中文有码无码人妻在线| 久久久久精品国产亚洲AV无码| 亚洲av无码成h人动漫无遮挡| 国产丝袜无码一区二区三区视频 | 亚洲人成影院在线无码观看| 无码国产精品一区二区免费I6| 中文无码亚洲精品字幕| 久久久久亚洲av无码专区喷水| 亚洲av激情无码专区在线播放| 在线观看免费无码专区| 国产成年无码久久久久毛片| 中文无码成人免费视频在线观看| 在线观看免费无码视频| 国产成人无码一区二区三区在线 | 伊人无码精品久久一区二区 |