本發明專利技術公開了一種包含假結的RNA結構預測方法。該方法包括:確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池S0={s1,s2,s3,…sn},n為結構單元總數,sn表示第n個結構單元;基于待預測RNA序列中的所有結構單元,通過迭代確定U={U1,U2,…,Ur,…,UR},Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數;根據Ur中各元素的自由能及其在所有的RNA結構中出現頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值;將U中相似值高的元素預測為該待預測RNA序列的RNA結構。本發明專利技術能夠降低RNA結構的預測的時間、空間復雜度,提高預測敏感性和特異性。
【技術實現步驟摘要】
本專利技術屬于生物信息工程領域,涉及一種對核糖核酸(在下文中,簡稱為RNA)的進行預測的方法,尤其涉及包含假結的RNA結構預測方法。
技術介紹
假結(pseudoknot,亦稱偽結)是包含至少兩個莖環結構的核酸三級結構,其中,兩個莖環之一的一半插在另一莖環的兩半之間。1982年首次在蕪菁花葉病毒(turnip yellowmosaic virus)中發現了假結。假結折疊成結形的三維立體構象,但不是真正的拓撲結。實際上,預測帶假結的最小自由能RNA結構的一般問題已被證明是NP完全問題。然而,許多重要的生物方法依賴于對帶假結的RNA結構的預測。例如,端粒酶RNA組分(Telomerase RNA component,參考附圖說明圖1)包含對其活性至關重要的假結。許多病毒使用假結結構形成類似tRNA基序(tRNA-like motif )滲透到宿主細胞。具有廣泛的三級結構的RNA分子往往有大量的假結。然而,由于假結結構的上下文敏感性(context-sensitivity)或“重疊”的特性,難于對它進行生物計算檢測。假結的堿基配對沒有很好的嵌套,換而言之,堿基對在序列中彼此重疊出現。這使得現有的動態規劃的標準方法(standard method of dynamicprogramming)難于預設核糖核酸(在下文中,簡稱為RNA)中的假結序列。較新的隨機上下文無關方法(method of stochastic context-free grammars)也遇到了同樣的問題。在較流行的Mfold和Pfold等二級結構預測方法中,甚至不會去預測的RNA序列中存在的假結結構。因此,如何盡量提高對帶假結的RNA結構系列的預測的敏感性和特異性,是一個亟待解決的科學難題。
技術實現思路
本專利技術所要解決的技術問題之一是需要提供一種能夠降低時間和空間復雜度的對包含假結的RNA結構進行預測的方法。為了解決上述技術問題,本專利技術提供了一種包含假結的RNA結構預測方法。該方法包括:步驟S10,確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池Stl=Is1, S2, S3,…sn}, η為結構單元總數,Sn表示第η個結構單元;步驟S20,基于待預測RNA序列中的所有結構單元,通過迭代確定U= (U1, U2,..., Ur,…,UE}, Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數;步驟S30,根據Ur中各元素的自由能及其在RNA結構中結構單元出現頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值;步驟S40,將U中相似值高的元素預測為該待預測RNA序列的RNA結構。其中,所述基于待預測RNA序列中的所有結構單元,通過迭代確定U= (U17U2,…,Ur, -,Ue)的步驟,進一步包括 :子步驟S201,對結構單元Ur賦空值,Ur表示第r次折疊得到的RNA結構;將迭代次數K初始化為I ;子步驟S202,通過子步驟S203至子步驟S204執行K次折疊處理;子步驟S203,逐個判斷S中的結構單元Si是否能夠使得當前的RNA結構Ur的自由能減少且Si與Ur中的結構單元不重疊,若判斷為是,則K=K+1,將Si并入^,然后返回子步驟S202以進行下一次折疊,反之,若判斷為否,則繼續判斷S中的si+1是否能夠使得當前的RNA結構Ur的自由能減少且Si與Ur中的結構單元不重疊,直到對S中的所有元素進行了判斷;子步驟S204,若對S中的所有元素進行了判斷,表示S中已經不存在能夠減少RNA結構Ur的自由能量的結構單元,則本次迭代結束。進一步,所述子步驟S203利用下述表達式來計算當前的RNA結構Ur的自由能:權利要求1.一種包含假結的RNA結構預測方法,其特征在于,包括: 步驟S10,確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池Stl=Is1, S2, S3,…sn}, η為結構單元總數,Sn表示第η個結構單元;步驟S20,基于待預測RNA序列中的所有結構單元,通過迭代確定U= {U1;U2,-,Ur,…,UE}, Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數; 步驟S30,根據Ur中各元素的自由能及其在RNA結構中結構單元出現頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值; 步驟S40,將U中相似值高的元素預測為該待預測RNA序列的RNA結構。2.根據權利要求1所述的方法,其特征在于,所述基于待預測RNA序列中的所有結構單元,通過迭代確定U= (U1, U2,..., Ur,..., υκ}的步驟,進一步包括: 子步驟S201,對結構單元Ur賦空值,Ur表示第r次折疊得到的RNA結構;將迭代次數K初始化為I ; 子步驟S202,通過子步驟S203至子步驟S204執行K次折疊處理; 子步驟S203,逐個判斷S中的結構單元Si是否能夠使得當前的RNA結構Ur的自由能減少且Si與I中的結構單元不重疊,若判斷為是,則K=K+1,將Si并入I,然后返回子步驟S202以進行下一次折疊,反之,若判斷為否,則繼續判斷S中的si+1是否能夠使得當前的RNA結構Ur的自由能減少且Si與Ur中的結構單元不重疊,直到對S中的所有元素進行了判斷;子步驟S204,若對S中的所有元素進行了判斷,表示S中已經不存在能夠減少RNA結構Ur的自由能量的結構單元,則本次迭代結束。3.根據權利要 求2所述的方法,其特征在于,所述子步驟S203利用下述表達式來計算當前的RNA結構I的自由能: Enest Emuitii00p+Estem+Ebuige+Einteri00p +Ehai_+EA,其中, E表示RNA結構的自由能; Enest表示RNA結構中嵌套結構的能量,Emultiloop是RNA結構中多分枝環的能量,Estem是RNA結構中莖區的能量,Ebulge是RNA結構中凸起的能量,Einteltrap是RNA結構中內環的能量,Ehairpin是RNA結構中發卡環的能量,Ea是各結構單元的補償連接參數; Epseudo表示RNA結構中假結的能量。4.根據權利要求3所述的方法,其特征在于,通過如下表達式來計算RNA結構Ur中假結的能量: Epseudo =A1Sb+A2Pb+A3Nb+A4+A5 A1是產生一個假結結構中子假結的能量值,Sb是假結結構中子假結的個數,Pb是假結內部邊界上的配對堿基對個數,Nb是假結內部未配對的堿基個數,A2、A3分別是Pb和Nb的能量值,可由實驗測出,A4是假結中的同軸堆積能權值,A5是RNA結構單元之間的連接參數,連接參數表示RNA假結與RNA結構單元之間的連接修正值。5.根據權利要求1至4中任一項所述的方法,其特征在于,步驟S30中,依據以下表達式來計算U中各元素與實際RNA結構的相似值:Function (Ur) =E (Ur) X a/n+P (Ur) Xb+c, r e 其中,Function(Ur)表示U1^與實際RNA結構的相似值; E(Ur)表示結構單元14的自由能; a,b、C、k是常數; η表示RNA堿基序列長度; P(Ur)表示Ur中的結構單本文檔來自技高網...
【技術保護點】
一種包含假結的RNA結構預測方法,其特征在于,包括:步驟S10,確定待預測RNA序列中的所有結構單元,包括假結,把所有已知存在的結構單元放入結構單元池S0={s1,s2,s3,…sn},n為結構單元總數,sn表示第n個結構單元;步驟S20,基于待預測RNA序列中的所有結構單元,通過迭代確定U={U1,U2,…,Ur,…,UR},Ur表示第r次迭代得到的RNA結構能量較小的RNA結構,R為總迭代次數;步驟S30,根據Ur中各元素的自由能及其在RNA結構中結構單元出現頻率的總和,分別確定Ur中各元素與實際RNA結構的相似值;步驟S40,將U中相似值高的元素預測為該待預測RNA序列的RNA結構。
【技術特征摘要】
【專利技術屬性】
技術研發人員:劉振棟,張鵬,崔巍,張志軍,李躍軍,柳楠,徐功文,
申請(專利權)人:山東建筑大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。