• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>南京大學專利>正文

    一種基于缺陷報告文本主題分析的缺陷定位方法技術

    技術編號:15690796 閱讀:82 留言:0更新日期:2017-06-24 03:28
    本發明專利技術公開一種基于缺陷報告文本主題分析的缺陷定位方法,為解決缺陷報告會給開發人員帶來嚴重的負擔,對缺陷跟蹤管理系統中已經解決的缺陷報告進行文本分析,獲取缺陷報告與修復代碼之間的關聯關系,并以此分析未解決的缺陷報告,為開發人員提供新的缺陷報告可能的待修復源代碼文件列表,從而提高軟件項目的維護效率。我們在監督式文本主題模型Labeled?LDA(LLDA)的基礎上提出了標簽生成子串的改進模型Label?to?SubStrings(L2SS)。在開源項目Eclipse數據集上的實驗表明,基于L2SS模型的缺陷定位方法較傳統的文本主題模型具有更高的預測效果。

    Defect locating method based on subject analysis of defect report text

    The invention discloses a method for locating defects defects report text based on topic analysis, in order to solve the defects of the report will bring serious burden to the developer, the text analysis of the defect report has to solve the defect tracking management system, obtain the relationship between the defect report and fix the code, and the analysis of defect report did not solve this. Provide defect report new possible to repair the source code file list for developers, so as to improve the maintenance efficiency of software project. We in the supervised text topic model Labeled LDA (LLDA) is proposed on the basis of substring label generation improved model Label to SubStrings (L2SS). Experiments on Eclipse data sets of open source projects show that the defect localization method based on L2SS model has higher prediction effect than traditional text topic model.

    【技術實現步驟摘要】
    一種基于缺陷報告文本主題分析的缺陷定位方法
    本專利技術涉及一種基于缺陷報告文本主題分析的缺陷定位方法,利用已解決缺陷報告中的文本內容,實現未解決缺陷報告缺陷源代碼文件的定位。在主題分析技術的基礎上,利用標簽詞語子串頻繁出現在相應缺陷報告的特性,添加了詞語生成的途徑,有效提高了基于缺陷報告缺陷源代碼文件定位的準確度。
    技術介紹
    在大型開源軟件開發過程中,廣泛使用Bugzilla,Jira,GNATS,trac等缺陷跟蹤管理系統來跟蹤管理項目的缺陷。以Eclipse項目中的缺陷跟蹤管理系統Bugzilla為例,在對整個項目進行開發、測試和維護的過程中,當軟件開發參與者發現了項目中的Bug時,可以登陸BugZilla系統提交一份缺陷報告。在BugZilla中,每個缺陷報告都有Status、Resolution這兩個關鍵屬性表示其狀態。其中,Status表示bug的一般狀態,下面是其取值和各個取值的說明以及轉換的可能性。Unconfirmed(未證實)表明bug是最近加入到數據庫,沒有人正式這個bug的存在。擁有“確定/取消Bug"的用戶可以對轉變bug的狀態為:1.確認這個bug,改變他的狀態為新(NEW)2.解決這個bug,標志為已解決(RESOLVED)New(新提交的)這個bug已經分發給某位開發人員處理。這個狀態的bug可以轉變為以下狀態:1.接受該bug,狀態轉變為指派(ASSIGNED)2.指派給別的開發人員,狀態維持為新(NEW)被解決,狀態轉變為被解決(RESOLVED)Assigned(已經指派)這個bug尚未解決,但已經被指派給正確的人進行解決。這個狀態的bug可能轉換為以下狀態:1.指派給別的開發人員,狀態轉變為新(NEW)2.被解決,狀態轉變為被解決(RESOLVED)Reopened(重新打開)這個bug曾經被解決了,但是解決方案是不正確的。例如,一個處于對我有效(WORKSFORME)的bug,當獲得了更多的信息并且能夠被再現時,將轉變為重開(REOPENED)狀態。這個狀態的bug只能轉換為以下狀態:1.指派(ASSIGNED)給某名開發人員2.被解決,狀態轉變為被解決(RESOLVED)Resolved(已經解決)已經確定了一種解決方案,這種方案正在等待QA的確認。此狀態的bug可轉化為以下狀態:1.重新開放,轉變為重開放(REOPENED)2.QA確認后,轉變為已驗證(VERIFIED)3.QA確認后,轉變為關閉(CLOSE)Verified(已經證實)QA已經確認對于這個bug的解決方案是成功的。處于這種狀態的bug當他們所存在的產品正式發布之后,狀態將轉變為關閉(CLOSE)。Closed(已關閉)bug處于這種狀態可視為已死亡,其解決方案是正確的。出于這種狀態的bug要重新得到處理,只能通過轉變他的狀態為重開(REOPEN)。有New、Assigned、Resolved、Reopened、Fixed、Closed這幾種狀態。Resolution(解決方案),表明對bug是如何處理的,下面是其取值以及各個取值的說明和轉換可能性。Fixed(已經修復)對這個bug的源代碼做了修改,放入代碼庫并且經過了測試。Invalid(無效)BUG確認人員認為所描述的問題不是一個BUG,因此也不會被修復。Won'tfix(不做修改)所描述的問題是一個bug,但由于某種原因不會進行修改。Later(以后修復)所描述的問題是一個bug,但當前版本不會修改這個bug。Remind(延時提醒)所描述的問題是一個bug,但尚未確定是否在當前版本進行修改。Duplicate(重復)所描述的問題是一個已存在bug。必須使用一個已存在的bugid對該bug進行標志。Worksforme(不可重現)無法根據描述對bug進行重現,閱讀代碼也無法解釋所描述的問題。如果以后能夠提供更多的細節,再做處理,現在暫時存檔。本專利技術利用BugZilla系統中缺陷狀態為Variefied且解決狀態為Fiexed的缺陷報告,通過對缺陷報告進行主題分析,建立需要修復文件與缺陷報告文本之間的聯系。目前常見的主題分析技術包括隱含語義分析(LSA)和隱含狄利克雷分布(LDA)模型等。LDA模型是無監督模型,為解決帶監督問題,還有多個擴展模型如Slda,Labeled-LDA等。由于缺陷報告包括了文本和需要修復的文件,同時對應修復文件可能有多個,因此本專利技術基于Labeled-LDA模型,并進行拓展,構成L2SS模型。在缺陷報告中,因為需要修復的文件名是一串詞語由“.”拼接而成,這些詞語代表了此文件代碼所在項目的各級模塊名。在大型開源項目中,模塊命名需要符合相應項目命名規范,反映其對應模塊的用途。在缺陷報告中,經常會提到缺陷源代碼文件所對應的各級模塊名以及表示這些模塊用途的詞語,而這些詞語又對應是相應缺陷源代碼文件名的子串,具有很強的相關信息。之前基于缺陷報告文本主題分析進行缺陷定位的模型中沒有對缺陷源代碼文件名子串詞進行特殊處理,丟失掉這些強相關詞語的重要信息,難以滿足我們需要的效果。
    技術實現思路
    傳統文本主題分析技術忽略了缺陷報告的特點,因此根據缺陷報告的文本內容進行缺陷源代碼文件定位準確度不高。L2SS模型通過增加詞語的生成模式,有效針對缺陷報告文本特征,提高了對缺陷源代碼文件定位的準確度。本專利技術基于Labeled-LDA模型,進一步添加了標簽子串詞生成途徑,提出了基于標簽生成子串的主題模型,并給出了一種基于此主題模型的缺陷定位方法,有效的提高了缺陷定位的準確率和召回率。技術方案:一種基于缺陷報告文本主題分析的缺陷定位方法,在Labeled-LDA的基礎上提出了標簽生成子串的文本主題模型L2SS,同時基于CVB0方法給出了L2SS模型的參數估計,最終根據模型參數來得出新的缺陷文本對需要修復文件的疑似度排序,從而實現了一種基于文本主題分析的缺陷定位系統。具體包括如下部分:1)基于標簽生成子串的文本主題模型-L2SS;2)基于CVB0的L2SS模型求解及缺陷報告主題推斷方法。1)基于標簽生成子串的文本主題模型-L2SS將缺陷源代碼文件對應的模塊名作為Labeled-LDA的標簽,直接對應LDA模型中的主題。在L2SS模型中,由主題生成詞的過程存在兩種可能,一種可能是按LDA模型由主題抽取詞語,另一種可能是直接生成主題詞的子串。在缺陷報告文檔中,會頻繁出現缺陷所在模塊的模塊名以及其子串。相對于傳統的LLDA模型,本專利技術有效表示出缺陷報告的頻繁出現標簽詞及其子串的特征,因此可以顯著提高缺陷預測的準確度。缺陷報告d可以表示成一個詞袋其中wi表示為文檔中第i個單詞。所有缺陷報告的所有詞語構成詞匯集V。所有缺陷報告文本主題用對應的標簽l表示。每個主題l都存在一個先驗分布為貝塔分布的二項分布βl~Beta(·|δ),每個主題都有兩種途徑生成詞語,由二項分布βl抽樣選取出來分開關變量κ決定最終選取的生成途徑。第一種途徑是從詞匯集V中根據分布從V中抽取詞語,是先驗分布為狄利克雷分布的多項分布。第二種途徑是從主題l對應標簽名的子串集合Sl中根據分布從Sl中抽取詞語,是先驗分布為狄利克雷分布的多項分布。κ有兩種值:1和2,當κ=1時,表示主題l本文檔來自技高網
    ...
    一種基于缺陷報告文本主題分析的缺陷定位方法

    【技術保護點】
    一種基于缺陷報告文本主題分析的缺陷定位方法,其特征在于:在Labeled?LDA的基礎上提出了標簽生成子串的文本主題模型L2SS,同時基于CVB0方法給出了L2SS模型的參數估計,最終根據模型參數來得出新的缺陷文本對需要修復文件的疑似度排序,此方法的主要內容包括:1)基于標簽生成子串的文本主題模型?L2SS;2)基于CVB0的L2SS模型求解及缺陷代碼預測方法;基于標簽生成子串的文本主題模型?L2SS:將缺陷源代碼文件對應的模塊名作為Labeled?LDA的標簽,直接對應LDA模型中的主題;缺陷報告d可以表示成一個詞袋

    【技術特征摘要】
    1.一種基于缺陷報告文本主題分析的缺陷定位方法,其特征在于:在Labeled-LDA的基礎上提出了標簽生成子串的文本主題模型L2SS,同時基于CVB0方法給出了L2SS模型的參數估計,最終根據模型參數來得出新的缺陷文本對需要修復文件的疑似度排序,此方法的主要內容包括:1)基于標簽生成子串的文本主題模型-L2SS;2)基于CVB0的L2SS模型求解及缺陷代碼預測方法;基于標簽生成子串的文本主題模型-L2SS:將缺陷源代碼文件對應的模塊名作為Labeled-LDA的標簽,直接對應LDA模型中的主題;缺陷報告d可以表示成一個詞袋其中wi表示為文檔中第i個單詞;所有缺陷報告的所有詞語構成詞匯集V;所有缺陷報告文本主題用對應的標簽l表示;每個主題l都存在一個先驗分布為貝塔分布的二項分布βl~Beta(·|δ),每個主題都有兩種途徑生成詞語,由二項分布βl抽樣選取出來分開關變量κ決定最終選取的生成途徑;第一種途徑是從詞匯集V中根據分布從V中抽取詞語,是先驗分布為狄利克雷分布的多項分布;第二種途徑是從主題l對應標簽名的子串集合Sl中根據分布從Sl中抽取詞語,是先驗分布為狄利克雷分布的多項分布;κ有兩種值:1和2,當κ=1時,表示主題l從詞匯集V中抽取詞語,當κ=2時,表示主題l從標簽子串集合Sl中抽取詞語;每篇缺陷報告d對于所有主題l還有一個先驗分布為貝塔分布的二項分布是從抽樣出開關變量,當時表示文檔d不選取此主題,當時表示文檔d選取此主題。缺陷報告d在所有的主題中得到先驗分布為狄利克雷分布的多項分布θd。L2SS模型的缺陷報告生成過程如下:對于每一個主題l1)取樣生成主題l上的開關分布βl=(βl1,βl2)T~Beta(·|δ)2)取樣生成主題l上對于所有詞語的分布3)根據主題l選擇對應標簽子串集合Sl得到l對應的子串詞語的先驗分布ηl4)取樣生成模塊標簽l上對于l子串詞語的分布對于每篇缺陷報告d對于每個主題l1)取樣生成文檔d對應的模塊標簽選擇分布2)根據標簽選擇得到文檔d對應的主題分布的先驗分布αd=Ld×α3)取樣生成文檔d對應的主題分布對于缺陷報告中每個位置i1)取樣生成主題zi∈Ld~Mult(·|θd)2)取樣生成主題zi的開關變量κ∈{1,2}~Bernoulli(·|βl)ifκ=1do取樣生成單詞ifκ=2do取樣生成單詞其中Beta表示貝塔分布,Mult表示多項分布,Bernouli表示二項分布,Dir表示狄利克雷分布;依據此上過程,可以得到L2SS的概率圖模型,同時得到詞和主題生成的聯合概率:2.如權利要求1所述的基于缺陷報告文本主題分析的缺陷定位方法,其特征在于,基于CVB0的L2SS模型求解及缺陷報告主題推斷方法:LDA模型參數推斷常采用吉布斯采樣的方法,即用p(zi=l|z-i,w;α,η,δ)來對各個詞語的主題進行采樣,不斷迭代直至收斂;而吉布斯采樣收斂速度較慢,采用CVB0方法進行參數推斷;在LLDA模型中,CVB0方法為文檔中的每個位置的詞語賦予一個勢函數向量l代表標簽l,d代表文檔的編號,i代表詞在文檔中的位置;γl|d,i的值就等于p(zi=l|z-i,w;α,η,δ),對于文檔d中沒有出現的標簽l,就將γl|d,i的值定為0在L2SS模型中,因為詞可能有兩種生成方式,因此L2SS模型中,可由標簽子串生成的詞語的分成兩個勢...

    【專利技術屬性】
    技術研發人員:呂建徐鋒張曉飛
    申請(專利權)人:南京大學
    類型:發明
    國別省市:江蘇,32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码精品A∨在线观看免费| 潮喷失禁大喷水无码| 日木av无码专区亚洲av毛片| 亚洲AV无码一区二区二三区入口| 久久亚洲AV无码精品色午夜| 亚洲精品无码成人片在线观看 | 国产日产欧洲无码视频无遮挡| 高清无码视频直接看| 无码任你躁久久久久久久| 精品无码人妻一区二区三区| mm1313亚洲精品无码又大又粗| 亚洲中文无码线在线观看| 中文字幕无码一区二区免费| 无码人妻精品一区二区三区9厂| 亚洲AV无码久久精品色欲| 国产日韩精品无码区免费专区国产 | 极品无码国模国产在线观看| 无码人妻精品一区二区三区66| 国产精品无码不卡一区二区三区| 精品久久久无码人妻中文字幕| 国产在线无码精品电影网| 无码人妻一区二区三区av| 亚洲中文字幕无码av在线| 无码精品黑人一区二区三区| 成人免费无码H在线观看不卡 | 97免费人妻无码视频| 久久久无码精品国产一区| 久久精品无码精品免费专区| 台湾无码AV一区二区三区| 亚洲成av人片在线观看天堂无码| 国产成人无码A区在线观看导航| 免费A级毛片无码A∨中文字幕下载| 亚洲一区无码中文字幕| 一本大道东京热无码一区| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻系列av无码一区二区 | 性无码免费一区二区三区在线| 韩日美无码精品无码| 亚洲AV无码成人专区片在线观看| 国产热の有码热の无码视频| 亚洲av无码专区国产乱码在线观看 | 日韩AV无码精品人妻系列|