基于自治計算的流行病傳播網絡建模與推斷,包括下列步驟:采用多自治體建模流行病傳播網絡和流行病傳播過程,采用蒙特卡羅模擬和負反饋機制從流行病監控數據中推斷出傳播網絡結構及與流行病有關的生物學參數。本發明專利技術為流行病監控與防治提供了一種新方法,與現有方法相比,本發明專利技術具有如下主要優點:1)提供了一種適應范圍更廣的流行病傳播網絡建模方法;2)提供了一種有效的流行病傳播網絡推斷方法,可從流行病監控數據中推斷出流行病傳播網絡結構以及與流行病有關的生物學參數;3)本發明專利技術所提供的方法可用于流行病風險評估和流行病防治策略的有效性驗證。
【技術實現步驟摘要】
基于自治計算的流行病傳播網絡建模與推斷
本專利技術屬于信息技術和公共衛生的交叉領域,尤其涉及流行病控制、復雜網絡和數據挖掘等領域。
技術介紹
流行病的每次爆發都會給人類社會帶來巨大損失。建立理論模型理解和模擬流行病的傳播與爆發過程,建立監控系統收集流行病的傳播數據,進而基于模型與監控數據進行準確的風險評估,幫助決策者制定相應的預防和應急方案,是有效控制流行病傳播與爆發、最大限度減少生命財產損失的新途徑。流行病的傳播過程由流行病模型和傳播網絡共同決定。醫學領域對流行病的研究有較長歷史,提出了多種數學模型,其中最具代表性的是基于動力系統的SIR模型和SIS模型,以及基于它們的多種改進模型。對這類模型的早期研究大都假設流行病的傳播媒介均勻分布,沒有考慮人口在空間上分布不均對流行病傳播過程的影響。人口等流行病傳播媒介在空間上的分布可采用網絡結構進行抽象與建模。1983年,Grassberger將流行病傳播問題建模為鍵逾滲(bond percolation)問題,最先在網絡框架下研究了 SIR模型的基本性質。1998年小世界網絡模型提出后,Newman最早研究了小世界網絡結構對SIR模型的影響。在此基礎上,后續工作深入研究了小世界網絡模型的各種參數(如隨機長連概率)對 SIR模型的影響,小世界網絡傳播動力方程的分形、不動點、混沌和周期分叉等多種數學性質。一些工作還將SIS和SEIR等模型推廣到網絡上,討論這些流行病模型在小世界網絡上的傳播特性。1999年無標度網絡模型提出后,人們發現包括社會網絡在內的很多實際網絡都是非均勻網絡,其度分布滿足冪率而非泊淞分布。此后,各種傳播模型在無標度網絡上的臨界值分析成為新的研究熱點。以上研究在分析網絡結構對流行病傳播產生的影響時,大都事先假定傳播網絡結構已知(如某種規則網絡)或者服從某種特定的網絡生成模型(如小世界網絡和無標度網絡模型),進而分析流行病模型在不同網絡結構上的臨界值及各種宏觀動力學性質。然而實際問題所涉及的傳播網絡具有更高的復雜性,往往不能滿足這些假設。實際傳播網絡與假設網絡結構上的差異會顯著影響分析的準確性與可靠性。隨著信息技術在醫療領域的廣泛應用,記錄各種流行病傳播過程的監控數據(surveillance data)與日俱增,這些數據記錄了與流行病傳播和爆發相關的時空信息,包括入院、確診、出院、死亡等醫療過程的統計數據,地理位置信息以及當地人口的統計數據。如果能從這些監控數據中推斷出導致傳播現象發生的傳播網絡結構,就有望解決真實傳播網絡難以建造的問題。基于觀測到的傳播數據推斷傳播網絡結構是研究流行病傳播規律的新思路,在流行病等醫學領域還未見到相關研究,類似問題最先受到計算機領域研究者的關注。該方面的早期工作主要針對信息傳播現象,提出能夠根據傳播現象推斷出隱含信息傳播網絡的學習算法。2004年,HP公司的Adar等人較早開展了這方面的嘗試,基于博客(blog)被話題 (topic)感染時間的先后次序、博文的文本信息以及博客主頁間的超鏈接結構推斷出博客間的隱含影響關系。有監督的學習方法需要大量正確標注的樣本,而在實際問題中這些樣本往往難以獲取。IBM公司Gruhl等人提出了模擬博客閱讀和撰寫博文行為的主題傳播模型,進而提出了類似EM算法的非監督參數估計算法,根據博文發表時間的先后次序估計出博客間的影響概率,建立隱含的主題傳播網絡。2010年,斯坦福計算機系的研究小組發表了從多組時間序列中推斷出隱含傳播網絡結構的論文,該工作推廣了信息傳播網絡推斷問題,使之能描述流行病傳播,并針對獨立級聯模型給出一種基于子模塊(submodular)貪心優化的近似學習算法,可推斷出近似最優的隱含傳播網絡。在此基礎上,該小組又相繼提出了缺失觀測數據的處理方法和基于凸規劃的傳播網絡的推斷算法。以上工作從算法和實驗的角度驗證了從傳播數據中學習傳播網絡的可行性,可為研究流行病傳播網絡推斷問題提供參考。然而現有的傳播網絡推斷方法不能有效應用于流行病監控數據。其主要原因如下①現有方法所能處理的傳播數據與可獲得的流行病監控數據形式不同。現有方法處理的傳播數據都是基于個體(individual based)的時間序列, 以“某個體在某時間被感染”的方式依次記錄信息在網絡上的傳播過程。然而如此細粒度的流行病監控數據通常很難獲得,各級疾病控制中心(CDC)和各地區醫院提供的流行病監控數據通常是基于空間位置(location based)的時間序列,以“某區域在某個時間段內感染、出院或死亡多少人”的方式記錄流行病的傳播和爆發過程。②現有傳播網絡推斷方法假設被觀察到的傳播數據足夠多,需要多次傳播過程對應的時間序列數據才能較為準確的推斷傳播網絡結構。然而在實際應用中,可獲得的流行病監控數據通常十分有限。③流行病監控數據具有空間和時間上的多尺度(multi-scale)特性,這些特性都為現有的傳播網絡推斷方法帶來困難。④現有傳播網絡推斷方法主要針對信息傳播過程,大多采用級聯和閾值模型建模信息的傳播機制,難于擴展到SIR、SIS或SEIR等模型,而這些模型非常適合于刻畫流行病的傳播和爆發過程。流行病的傳播過程是復雜系統上的動力學過程。自治計算(AOC,Autonomy Oriented Computing)為建模和分析復雜系統及發生在其上的動力學行為提供一種新的理論和方法,采用“自底向上”的“白盒”方法分析和發現隱藏在復雜現象背后的基本機制和規律,為此我們采用自治計算方法建模和推斷流行病傳播網絡。
技術實現思路
現有的傳播網絡結構推斷方法大都面向信息傳播過程,所能處理的數據與可獲得的流行病監控數據形式和特性均不相同,不適合處理具有粗粒度、時空多尺度和數據缺失等特性的流行病監控數據。針對以上問題,提出了基于自治計算的流行病傳播網絡建模方法和網絡結構推斷方法。該方法采用多自治體建模傳播網絡結構和流行病傳播過程,采用蒙特卡羅模擬和負反饋機制調節系統參數,以縮小模擬系統產生的數據與實際監控數據間差異為目標,改變自治體的行為,促使模擬系統向真實系統逐步演化,以此方式推斷出傳播網絡結構及與流行病相關的生物學參數。附圖說明圖I所示的流程圖給出本專利技術提供的基于自治計算的流行病傳播網絡建模與推斷方法的基本步驟。圖2所示自治體的狀態轉換規則。圖3所示的流程圖給出了模擬系統參數推斷的具體步驟。圖4所示2009年香港地區HlNl豬流感傳播的真實數據與模擬系統產生的模擬數據。圖5(a)所示采用模擬系統模擬流行病傳播過程;圖5(b)所示模擬系統的參數估計過程。圖6所示缺失數據對爆發趨勢估計的影響。圖7所示時間窗大小對爆發趨勢估計的影響。圖8所示基于真實數據的流行病傳播網絡推斷過程。圖8(a)所示香港地圖;圖 8(b)所示香港島的區域劃分和真實數據;圖8(c)所示香港島的流行病傳播網絡。圖9所示基于傳播網絡推斷的流行病感染風險評估。圖9(a)所示第40天時累積感染病例的空間分布圖;圖9(b)所示第100天時感染風險的空間分布圖;圖9(c)所示第 40天至第100天期間的感染風險的時空分布圖。具體實施方式下面結合附圖和實施例,對本專利技術的具體實施方式作進一步詳細說明。實施例僅用于說明本專利技術,但不用來限制本專利技術的應用范圍。圖1,一種基于自治本文檔來自技高網...
【技術保護點】
一種基于自治計算的流行病傳播網絡建模與推斷方法,其特征在于,包括如下步驟:101:構造模擬流行病傳播過程的自治體系統(命名為D?AOC系統);102:采用蒙特卡羅模擬和負反饋機制,從流行病監控數據中推斷出D?AOC系統的參數,包括:流行病傳播網絡和與流行病有關的生物學參數。
【技術特征摘要】
【專利技術屬性】
技術研發人員:楊博,
申請(專利權)人:吉林大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。