• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于kendall相關系數的DNA序列相似性比對方法技術

    技術編號:15501145 閱讀:116 留言:0更新日期:2017-06-03 22:39
    本發明專利技術公開基于kendall相關系數的DNA序列相似性比對方法,其包括如下步驟:1)獲取N條待比對的DNA序列;2)選取長度k,按滑動窗口的方式獲取每對組合DNA序列的相應的k詞,并組合成相應的向量3)以步驟2)所獲取的k詞,計算每個k詞在DNA序列中出現的次數即計算k詞在DNA序列中出現的頻率向量,將其記為x

    DNA sequence similarity alignment method based on Kendall correlation coefficient

    The invention discloses a DNA sequence Kendall correlation coefficient based on similarity matching method, which comprises the following steps: 1) to obtain N alignment of DNA sequences; 2) selected by sliding window length k, access to each combination of DNA sequences corresponding to K words, and combined into the corresponding vector in step 3) 2) k the K to calculate the number of each word appears in the DNA sequence in the calculation of the frequency vector of the K word appears in the DNA sequence, which is denoted as X

    【技術實現步驟摘要】
    基于kendall相關系數的DNA序列相似性比對方法
    本專利技術涉及計算機與生物信息學處理領域,尤其涉及基于kendall相關系數的DNA序列相似性比對方法。
    技術介紹
    生物信息學的中心任務,是從浩如煙海的DNA序列數據中提取理性知識。生物信息學家所面臨的任務,不僅是解決高效的數據儲存手段,而且需要開發有效的數據分析工具。因為只有利用新的、有效的數據分析工具,才能將DNA序列信息轉換成生物學知識,并弄清它們所蘊含的結構和功能信息,進而徹底了解它們所代表的生物學意義。DNA序列比對的理論基礎是進化理論,如果兩個DNA序列之間具有足夠的相似性,就推測二者可能有共同的進化祖先,經過DNA序列內殘基的替換、殘基或DNA序列片段的缺失以及DNA序列重組等遺傳變異過程分別演化而來。DNA序列相似和DNA序列同源是不同的概念,DNA序列之間的相似程度是可以量化的參數,而DNA序列是否同源需要有進化事實的驗證。DNA序列比對實際上就是運用某種特定的數學模型或算法,找出兩個或多個DNA序列之間的最大匹配堿基數。黃玉娟、王天明等人采用DNA序列中的k詞出現的頻率及位置信息構建了一個概率分布,這個分布表示兩個向量之間的距離,值越小物種越接近。Vinga和Almeida提出了基于詞頻率的DNA序列比較方法:通過滑動窗口的方式所有長度為k的詞出現的次數,得到k詞次數或頻率向量,這樣把一條DNA序列映射為高維歐式空間上的一個向量,從而將DNA序列之間的相似性比較轉換為向量之間的比較。雙DNA序列比對就是用特定的算法對兩條DNA序列進行比對,從而求出這兩條DNA序列之間最大的相似性的匹配。Kendall相關系數被廣泛用于時間DNA序列、水文、水質DNA序列等的相關性預測,但未曾被用于DNA序列相似性匹配。
    技術實現思路
    本專利技術的目的在于克服現有技術的不足,提供基于kendall相關系數的DNA序列相似性比對方法,構建一個關于N條DNA序列的階相似系數矩陣,獲得N條DNA序列的進化關系,同時提高DNA序列相似性比對的效率及提高運算效率。本專利技術采用的技術方案是:基于kendall相關系數的DNA序列相似性比對方法,其包括如下步驟:1)獲取N條待比對的DNA序列;2)選取長度k,按滑動窗口的方式獲取每對組合DNA序列的相應的k詞,并組合成相應的向量3)以步驟2)所獲取的k詞,計算每個k詞在DNA序列中出現的次數,即計算k詞在DNA序列中出現的頻率向量,將其記為xi;4)對N條DNA序列k詞向量進行兩兩組合,即得到組合,每個組合向量記為X={xi},Y={yi}。5)每種組合的k詞頻率向量即xi,yi,計算其對應的kendall相關系數;6)建立N條DNA序列的N×N階相關系數矩陣,以獲取DNA序列的相似信息以及進化關系圖。進一步,所述步驟2)中,對DNA序列取其長度為k的詞頻向量。進一步,所述步驟5)中,可通過如下步驟獲得DNA序列的k詞的kendall相關系數;a)通過下式,獲取待比對DNA序列A的k詞,其中DNA序列A長度設為n:b)通過下式,計算k詞出現的頻率:xi={第i個k詞在DNA序列A中重復出現的次數};c)對組合的X,Y向量,通過下式,計算kendall相關系數其特征在于:tx是{xi},{yi}中擁有一致性對數,ty是{xi,yi}擁有不一致性對數,T是{xi,yi}擁有不相同k詞總個數。d)步驟c)中的tx,ty可以由下式獲取,tx=(xi-yi)*(xi-yi)為同號,則稱為是{xi,yi}中一致性對數,ty可以由下式獲取,ty=(xi-yi)*(xi-yi)為異號,則稱為是{xi,yi}中不一致性對數所獲得的kendall相關系數τ是一個值為[-1,1]的數,當τ的值越接近于1則表示兩條DNA序列之間相關程度越強,當τ的值越接近-1則表示兩條DNA序列之間是負向相關,當τ的值接近于0則表示兩條DNA序列不存在相關性。構建N*N階的kendall相關系數矩陣,此矩陣為對稱矩陣,對角線上的值為1,可以得到N條DNA序列的兩兩相似性信息,由此構建出N條DNA序列的進化的關系。本專利技術基于kendall相關系數的DNA序列相似性比對方法,采用滑動窗口方式求取待分析DNA序列的k詞頻率向量,對N條DNA序列的k詞向量進行兩兩組合,利用kendall相關系數對相應DNA序列的k詞頻率向量求其相關系數,使得能夠對多條DNA序列進行相似性檢測,檢測結果有效地反映出DNA序列之間的進化關系。本方法較為簡潔,只需構建一個對稱矩陣,矩陣左上到右下的對角線上的值為1,簡化了計算復雜性,提高了運算效率,kendall系數可以作為描述DNA序列相似性預測的特征值,可以獲得良好的準確度。附圖說明以下結合附圖和具體實施方式對本專利技術做進一步詳細說明;圖1為本專利技術基于kendall相關系數的DNA序列相似性比對方法的流程示意圖;圖2為本專利技術基于kendall相關系數的DNA序列相似性比對方法的DNA序列的進化關系圖。具體實施方式如圖1或圖2所示,對本專利技術的方法采用20個物種的DNA編碼DNA序列作為分析對象為例作進一步詳細闡述,包括以下步驟:如圖1所示,本實施例的基于kendall相關系數的DNA序列相似性比對方法包括如下步驟:1)選擇20個物種的DNA編碼DNA序列作為初始DNA序列,20個物種的DNA序列名稱及長度見表1;物種名稱DNA序列長度baboon16522bluewhale16403cat17010common_chimpanzee16564cow16339fin_whale16399gibbon16473gorilla16365grayseal16798harborseal16827horse16661human16570mouse16296opossum17085orangutan16390pigmy_chimpanzee16555platypus17020rat16301wallaroo16897whiterhinoceros16833表1:物種DNA序列信息2)對步驟1的初始DNA序列獲取其k詞,并組合這些k詞,得到初始DNA序列的k詞頻率向量(參見Vinga,S.Almeida,J.S.Alignment-freesequencecomparisonareareview[J].Bioinformatics.513-523.2003)。此方法的特點是對按滑動窗口方式求長度k的短DNA序列出現在待測DNA序列中頻率,對DNA的4個堿基{A,T,G,C},取k長度為2,則對應k詞有42=16種,若k=3則對應k詞43=64種;如待測DNA序列片段的DNA序列A=ATAACTA,其k詞W2={AT,TA,AA,TT,AG,GA,AC,CA,CT….},其頻率向量值為{1,2,1,0,0,0,1,0,1,0…};待測DNA序列片段B=ACAACTTA,其k詞頻率向量為{0,1,1,1,0,0,2,1,1,0…};3)對應N條DNA序列,可以求出N個k詞頻率向量,將其兩兩組合,得到組合,每個組合頻率向量記為X,Y4)通過下式計算獲取kendall相關系數,其中tx是{xi,yi}與其他k詞頻率之間擁有一致性對數,ty是{xi,yi}本文檔來自技高網
    ...
    基于kendall相關系數的DNA序列相似性比對方法

    【技術保護點】
    基于kendall相關系數的DNA序列相似性比對方法,其特征在于:其包括如下步驟:1)獲取N條待比對的DNA序列;2)選取長度k,按滑動窗口的方式獲取每對組合DNA序列的相應的k詞,并組合成相應的向量;3)以步驟2)所獲取的k詞,計算每個k詞在DNA序列中出現的次數,即計算k詞在DNA序列中出現的頻率向量,將其記為x

    【技術特征摘要】
    1.基于kendall相關系數的DNA序列相似性比對方法,其特征在于:其包括如下步驟:1)獲取N條待比對的DNA序列;2)選取長度k,按滑動窗口的方式獲取每對組合DNA序列的相應的k詞,并組合成相應的向量;3)以步驟2)所獲取的k詞,計算每個k詞在DNA序列中出現的次數,即計算k詞在DNA序列中出現的頻率向量,將其記為xi;4)對N條DNA序列k詞向量進行兩兩組合,即得到組合,每個組合向量記為X={xi},Y={yi};5)每種組合的k詞頻率向量即xi,yi,計算其對應的kendall相關系數;6)建立N條DNA序列的N×N階相關系數矩陣,以獲取DNA序列的相似信息以及進化關系圖。2.根據權利要求1所述基于kendall相關系數的DNA序列相似性比對方法,其特征在于:所述步驟2)中,對DNA序列取其長度為k的詞頻向量。3.根據權利要求1所述基于kendall相關系數的DNA序列相似性比對方法,其特征在于:所述步驟5)中,通過如下步驟獲得DNA序列的k詞的kendall相關系數:a)通過下式,獲取待比對DNA序列A的k詞,其中DNA序列A長度設為n:b...

    【專利技術屬性】
    技術研發人員:林劼林麗玉江育娥
    申請(專利權)人:福建師范大學
    類型:發明
    國別省市:福建,35

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产69精品久久久久网站| 亚洲一区精品无码| 无码国产精品一区二区免费3p| 熟妇人妻系列aⅴ无码专区友真希| 成人无码网WWW在线观看| 无码国产精品一区二区免费I6| 亚洲AV无码专区日韩| 亚洲av无码电影网| 亚洲一区精品无码| 成人年无码AV片在线观看| 无码精品人妻一区二区三区漫画| 人妻中文字幕AV无码专区| 无码国产午夜福利片在线观看| 色视频综合无码一区二区三区| 在线观看无码AV网址| 亚洲av无码国产精品夜色午夜 | 免费无码午夜福利片| 无码国产精品一区二区免费16 | 精品人妻系列无码人妻漫画| 亚洲国产精品无码专区在线观看| 无码精品A∨在线观看中文| 无码精品前田一区二区| 亚洲heyzo专区无码综合| 日韩精品无码一区二区三区 | 九九在线中文字幕无码| 无码137片内射在线影院| 亚洲国产精品无码专区在线观看| 黄桃AV无码免费一区二区三区| 最新亚洲人成无码网www电影| 亚洲AV无码专区在线亚| 免费看又黄又无码的网站| 国产午夜鲁丝无码拍拍| 亚洲中文字幕久久精品无码喷水| 潮喷失禁大喷水aⅴ无码| 久久久精品人妻无码专区不卡| 日韩精品无码久久一区二区三| 一本大道无码日韩精品影视| yy111111少妇影院无码| 国产精品99无码一区二区| 免费a级毛片无码a∨免费软件| 一本一道av中文字幕无码|