• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法技術

    技術編號:15691248 閱讀:122 留言:0更新日期:2017-06-24 04:18
    本發明專利技術涉及一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,通過尋找到中醫糖尿病6種癥型之間的關系,發掘每個癥型存在的隱形“成因”,并將這些“成因”與傳統四診信息結合起來,構造增廣特征集來描述樣本。最后通過特征選擇算法和多標記分類算法來構造分類器,實現對中醫臨床糖尿病6種常見癥型的分類預測。

    Prediction method of TCM Syndrome Classification Based on multi label learning and Bayesian network

    The invention relates to a prediction method of TCM syndrome type classification and multi label learning based on Bayesian network, by looking for the relationship between TCM disease type 6 diabetes mellitus, explore each type of invisible existence \causes\, and the \cause\ and the traditional four diagnostic information combined with the augmented feature set to describe the sample. Finally, the classifier is constructed by feature selection algorithm and multi label classification algorithm to predict the classification of 6 common diseases of Chinese medicine and clinical diabetes.

    【技術實現步驟摘要】
    基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法
    本專利技術涉及一種信息分類預測方法,特別是涉及一種使用標記相關性作為描述樣本的補充特征,并且將多標記學習算法和貝葉斯網絡進行結合的基于多標記學習的中醫臨床癥型分類方法。
    技術介紹
    中醫臨床癥型分類主要是通過中醫望聞問切的手法得到患者的癥狀信息(如:頭疼、四肢冰冷、脈細等),并運用分類模型得到該患者對應癥型(如:氣虛、肝胃郁熱等)。中醫臨床癥型分類問題最大特點在于:每個患者對應癥型常有多個,例如:氣陰兩虛兼血瘀,其中包含了氣虛、陰虛和血瘀三種癥型,因此使用多標記學習模型構建分類器成為解決該問題的常用方法。基于考察標記之間相關性的不同方式,已有的多標記學習問題求解策略大致可以分為三種:一階、二階和高階;其中一階方法將多標記問題轉化成多個獨立的二分類問題,忽略標記之間的關系,所以模型泛化能力最低,正確率不高;二階方法將多標記問題拆分成兩兩標記比較,在一定程度上提高分類器泛化能力和正確率,但當現實問題具有超越二階的相關性時,該類方法的性能將會受到很大影響;高階方法策略通過考察高階的標記相關性來構造分類器,如處理任一標記對其它所有標記的影響,這類方法往往泛化能力最高,但其復雜度也可能隨之變大,不利于處理大規模數據。使用標記相關性來設計分類器,是多標記學習領域的特點也是難點?,F在常用的多標記分類方法有大部分是將已有的二分類器進行改編,以適應多標記學習問題。
    技術實現思路
    要解決的技術問題為了避免現有技術的不足之處,本專利技術提出一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法。技術方案一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,其特征在于步驟如下:步驟1:根據收集到的t個中醫病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同時,根據中醫病例整理出k種常見的糖尿病癥型,針對每個樣本,如果該樣本對應標記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個樣本的標記集Yi=(yi1,yi2,…,yik),其中i=1,…,t,將每個樣本的特征集和標記集一一對應對應得到一個數據集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},將數據集S分為訓練數據集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測試數據集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};步驟2:將樣本的標記集Yi=(yi1,yi2,…,yik)輸入到BayesianDAGlearning工具包中,使用BayesianDAGlearning工具包中所提供動態規劃算法DP來計算得到最優貝葉斯網絡模型;步驟3:根據貝葉斯網絡模型讀取訓練數據集D中每個樣本標記的父節點信息pa=(p1,p2,…,pk),將已有s維的四診信息與k維的父節點信息融合,得到了一個s+k維的訓練數據的增廣特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);步驟4:使用訓練數據D的特征集x1,x2,…,xm和它們的父節點信息pa1,pa2,…,pam分別作為訓練數據和訓練數據的標記集,訓練得到一個多標記神經網絡,使用這個多標記神經網絡來預測測試數據集K中每個樣本標記的父節點信息;然后將父節點信息與測試數據四診信息融合,形成測試數據的增廣特征集;步驟5:將增廣訓練數據集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來訓練出最優特征子集;使用訓練數據D1’來隨機生成新的特征子集共100組,將100組特征子集作為最初解空間,使用模擬退火算法SA進行迭代,每輪迭代中,將經過每組特征子集簡化后的訓練數據D1’輸入多標記分類器,由多標記分類器輸出一個指標Averageprecision作為描述特征子集的適應度,在設定時間Tk搜索解空間里適應度最高的解,即100組的特征子集:BF1’,BF2’,…,BF100’;步驟6:將BF1’,BF2’,…,BF100’作為遺傳算法GA的100個初始種群,經過選擇、交叉和變異算子,不斷迭代產生新的解,每輪迭代中,將經過每組特征子集簡化后的訓練數據D1’輸入多標記分類器,由多標記分類器輸出一個指標Averageprecision作為描述特征子集的適應度,在設定時間Tg內得到適應度最高的100組的特征子集:BF1”,BF2”,…,BF100”;步驟7:將適應度最高的100組解:BF1”,BF2”,…,BF100”作為爬山算法HC的輸入,每輪迭代時改變每組特征子集中的任意一個特征值,將經過這組特征子集簡化后的訓練數據D1’輸入多標記分類器,由多標記分類器輸出一個指標Averageprecision作為描述特征子集的適應度,在設定時間Th內計算選出適應度最優的一組,將其作為最優特征子集BF;步驟8:使用步驟5-7對D2’依次進行隨機生成新的特征子集共100組、模擬退火算法SA、遺傳算法GA、爬山算法HC迭代,得到最優特征子集BF’,比較BF和BF’的適應度,選取適應度高的那組的那組作為最終的最優特征子集;步驟9:將增廣測試數據集中的增廣特征集按照步驟8得到的最終最優特征子集的特征序號進行特征選擇,將訓練數據集和測試數據集中的增廣特征集替換為最優特征子集,分別得到了最優訓練數據集DBF和最優測試數據集KBF;最后使用DBF訓練多標記分類器,并在KBF上完成測試。步驟4中所述的多標記神經網絡使用誤差反向傳播算法實現訓練,誤差函數是:其中,m是訓練樣本數,Yi表示樣本xi對應的相關標記,表示樣本xi對應的無關標記,表示該網絡對樣本xi的相關標記的實際輸出值;表示該網絡對樣本xi的無關標記的實際輸出值。所述的多標記分類器采用SVM算法設計分類器。步驟6中所述的選擇、交叉和變異算子分別使用輪盤賭選擇策略RouletteSelectScheme、HalfUniformCrossoverScheme、二進制變異策略,交叉和變異概率設置為pc≥0.8,pm≤0.05。有益效果本專利技術提出的一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,首先,由于增加了癥型之間的相關性作為補充信息,對樣本的描述相較傳統四診信息更為豐富,更清晰的刻畫了樣本,提高了分類器的正確率。而且,在中醫診療實踐中,中醫專家是通過中醫的理論結合長期的臨床實踐經驗得出最終的判斷,所以統計常見癥型并通過貝葉斯網絡來分析癥型之間的聯系與中醫診療過程是一致的。最后,本專利技術方法相較于一階的多標記學習算法,在構造分類器時,都使用一樣數量的分類器,只是本專利技術在樣本特征集上增加了若干父節點信息的值,所以,在計算復雜度和時間成本上的增加極小,但分類效果明顯優于一階多標記學習算法。附圖說明圖16種中醫癥型的貝葉斯網絡模型具體實施方式現結合實施例、附圖對本專利技術作進一步描述:為了更好的運用標記之間的相關性來提高分類正確率,本專利技術提供一種將貝葉斯網絡與多標記學習結合的分類方法。該方法首先針對中醫臨床糖尿病的6種常見癥型進行統計,使用貝葉斯網絡計算每種癥型在其他癥型出現下的條件概率,得到6種癥型之間的有向無環圖模型,這種圖模型本文檔來自技高網...
    基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法

    【技術保護點】
    一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,其特征在于步驟如下:步驟1:根據收集到的t個中醫病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集x

    【技術特征摘要】
    1.一種基于多標記學習和貝葉斯網絡的中醫癥型分類預測方法,其特征在于步驟如下:步驟1:根據收集到的t個中醫病例,整理了s種四診癥狀,選擇以二值方式為特征賦值,如果病人出現某一癥狀,則該癥狀賦值為1,反之為0,由此得到每個樣本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同時,根據中醫病例整理出k種常見的糖尿病癥型,針對每個樣本,如果該樣本對應標記集中有某一癥型,則為該癥型賦值1,反之為0,由此得到每個樣本的標記集Yi=(yi1,yi2,…,yik),其中i=1,…,t,將每個樣本的特征集和標記集一一對應對應得到一個數據集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},將數據集S分為訓練數據集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和測試數據集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};步驟2:將樣本的標記集Yi=(yi1,yi2,…,yik)輸入到BayesianDAGlearning工具包中,使用BayesianDAGlearning工具包中所提供動態規劃算法DP來計算得到最優貝葉斯網絡模型;步驟3:根據貝葉斯網絡模型讀取訓練數據集D中每個樣本標記的父節點信息pa=(p1,p2,…,pk),將已有s維的四診信息與k維的父節點信息融合,得到了一個s+k維的訓練數據的增廣特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);步驟4:使用訓練數據D的特征集x1,x2,…,xm和它們的父節點信息pa1,pa2,…,pam分別作為訓練數據和訓練數據的標記集,訓練得到一個多標記神經網絡,使用這個多標記神經網絡來預測測試數據集K中每個樣本標記的父節點信息;然后將父節點信息與測試數據四診信息融合,形成測試數據的增廣特征集;步驟5:將增廣訓練數據集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成兩份D1’,D2’用來訓練出最優特征子集;使用訓練數據D1’來隨機生成新的特征子集共100組,將100組特征子集作為最初解空間,使用模擬退火算法SA進行迭代,每輪迭代中,將經過每組特征子集簡化后的訓練數據D1’輸入多標記分類器,由多標記分類器輸出一個指標Averageprecision作為描述特征子集的適應度,在設定時間Tk搜索解空間里適應度最高的解,即100組的特征子集:BF1’,BF2’,…,BF100’;步驟6:將BF1’,BF2’,…,BF100’作為遺傳算法GA的...

    【專利技術屬性】
    技術研發人員:夏勇,馬夢羽,沈璐張艷寧,
    申請(專利權)人:西北工業大學,
    類型:發明
    國別省市:陜西,61

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码一区二区三区四区| 亚洲AV无码成人精品区狼人影院| 亚洲成无码人在线观看| 无码人妻精品一区二区三区99仓本| 日韩人妻无码精品一专区 | 久久亚洲精品中文字幕无码| 精品无码久久久久国产| 亚洲人成无码网站久久99热国产| 亚洲av中文无码乱人伦在线播放| 国产精品无码一区二区在线| 无码人妻熟妇AV又粗又大| 国产精品成人99一区无码| 无码国内精品久久综合88| 亚洲中文字幕无码一区二区三区| 亚洲人成人无码.www石榴| 无码人妻AV一二区二区三区| 日韩A无码AV一区二区三区| 亚洲AV无码专区在线观看成人| 久久青青草原亚洲AV无码麻豆| 成年男人裸j照无遮挡无码| 中文字幕乱偷无码av先锋蜜桃| 中文字幕乱码人妻无码久久| 免费无遮挡无码永久在线观看视频 | 无码午夜人妻一区二区不卡视频| 性无码免费一区二区三区在线 | 6080YYY午夜理论片中无码 | 亚洲av无码偷拍在线观看| 无码人妻精品一区二区三区在线| 国产自无码视频在线观看| 亚洲男人第一无码aⅴ网站| 本道久久综合无码中文字幕| 无码人妻精品内射一二三AV| 亚洲AV无码专区国产乱码不卡| 久久精品无码一区二区无码| 亚洲AV无码精品无码麻豆| 无码人妻视频一区二区三区| 未满小14洗澡无码视频网站| 久久亚洲AV成人无码国产| 亚洲国产日产无码精品| 亚洲av永久无码| 国产高新无码在线观看|