• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于組裝來自一個或多個生物體的染色體段的方法、設備和計算機程序技術

    技術編號:14740200 閱讀:69 留言:0更新日期:2017-03-01 14:24
    本發明專利技術涉及從代表文庫的DNA片段的一組原始子序列組裝代表至少一條染色體段的序列,所述文庫包括包含連續核苷酸的鏈的DNA片段并且包括包含連續核苷酸的至少兩條鏈的組合的DNA片段。在獲得代表DNA區域之間的接觸頻率的第一值之后,所述第一值與代表相應DNA區域之間的距離的第二值相關聯,迭代地進行以下步驟:?基于所述第一和第二值并基于將DNA區域之間的接觸概率與相應DNA區域之間的距離相關聯的理論模型更新基因組結構,更新的基因組結構代表染色體的真實基因組結構;和?更新作為更新的基因組結構的函數的所述理論模型的參數。

    【技術實現步驟摘要】
    【國外來華專利技術】專利
    本專利技術總體上涉及基因組組裝的領域。更具體地,本專利技術涉及用于使用與高通量測序結合的染色體構象捕獲來組裝一個或多個生物體的一個或多個基因組的方法、設備和計算機程序。專利技術背景微生物群落是維持環境穩定性和健康活生物體的基礎。微生物物種最初是單獨研究的,并且已經導致在諸如農業經濟學、醫學或消除污染的多種領域中開發了許多技術。由于技術的進步,現在有可能通過宏基因組學方法研究微生物群落的復雜性(例如超過100,000種不同的物種共存于一克土壤中,或數十億微生物共存于人體內)。宏基因組學研究主要在于收集、測序和分析從直接從諸如皮膚、深海、腸、土壤、水等多樣的環境中收集的微生物群落直接提取的遺傳物質。DNA(脫氧核糖核酸)分子的數百萬個隨機段(其可以克隆到載體中)構成可以覆蓋成千上萬種不同物種的文庫。對這樣的文庫的計算機(insilico)和實驗分析導致發現新的基因和酶、新的網絡和潛在的新物種(在地球上尚未發現的超過一千萬種物種中的)。這種新方法不僅目前正在徹底改變我們對世界的理解,而且將最顯著地在醫學、能源和農業經濟學領域中促進工業應用。許多公司已經開始挖掘這種未知的微生物多樣性的巨大資源,同時一些機構和學院預測了關于這一新領域的未來的巨大前景。測序深度、讀長長度和質量的快速改善已導致在集合種群內相對低豐度物種的基因組的表征。然而,由于在匯集重疊群和組裝個體物種的大染色體區域的支架(scaffold)上遇到的困難,微生物群體的宏基因組分析仍然是有限的,從而損害其基因組中包含的信息的充分利用?;蚪M測序旨在確定DNA分子內核苷酸的順序。DNA分子由兩個生物聚合物鏈組成,這兩個生物聚合物鏈彼此纏繞以形成雙螺旋。該分子的每條鏈是被稱為核苷酸的基本單元的聚合物。核苷酸由三個不同的部分組成:環狀堿基(由鳥嘌呤-G、腺嘌呤-A、胸腺嘧啶-T或胞嘧啶-C制成),環狀糖(脫氧核糖)和磷酸基團。在DNA分子中,核苷酸通過一個核苷酸的糖和下一個核苷酸的磷酸之間的共價鍵在鏈中彼此連接,導致交替的糖-磷酸骨架。根據堿基配對規則(A與T和C與G),氫將兩個單獨的多核苷酸鏈的含氮堿基鍵合以制備雙鏈DNA。知道DNA序列(即四個環狀堿基的連續順序)對于生物研究以及在許多應用領域例如診斷、生物技術、法醫生物學和生物系統學中是必需的。由于染色體通常包含數億個核苷酸對,DNA測序儀的通量是許多實際應用(例如診斷)的關鍵因素。大規模DNA測序方法通常產生數百個或更少的堿基對的序列(即讀長)。因此,在測序完整基因組之前,有必要將其剪切成更小的DNA段。這些片段被至少部分地單獨測序以確定核苷酸的相應次序。那些DNA片段的僅小部分可以被測序(約100至200bp)。應當注意,可以使用導致兩個讀長的配對末端測序對DNA片段的末端進行測序。接下來,所獲得的短序列必須重新組裝以提供所研究的基因組的總體序列。根據眾所周知的鳥槍測序方法,從生物體提取基因組并將其剪切成DNA的小段。接下來,對DNA片段進行測序,并基于重疊序列的完全相似性將所得的讀長彼此重組以形成被稱為重疊群的已知序列的DNA的部分。圖1,包括圖1a、1b和1c,示意性地說明了用于組合數百萬個讀長以形成重疊群并因此重組裝片段的方法。如圖1a所示,DNA片段100包含兩條聚合物鏈110-1和110-2,其包含形成堿基對(bp)的核苷酸,例如序列對“ACTCTAATT”和“TGAGATTAA”。如上所述,DNA片段100只能從每端向內測序(箭頭105-1和105-2)。DNA片段例如DNA片段100通常由結束于較粗的120-1和120-2(代表DNA片段的測序部分,即讀長)的短線115代表。圖1b示出了將DNA片段125組裝到組裝區域130中的過程。為此,分析讀長并彼此比較以確定核苷酸的共同鏈。當兩個DNA片段包含相同的核苷酸鏈時,它們作為該鏈在DNA片段中的相對位置的函數進行比對,如圖所示。接下來,可以組裝比對的DNA片段以形成重疊群,即DNA染色體段。應當注意,可以存在不對應于任何讀長的部分,在組裝區域中形成間隙,例如間隙135。換句話說,從DNA片段組裝基因組作為核苷酸的重疊匹配序列的函數。圖1c示出了重測序過程,根據該重測序過程,通過將短讀長針對參照基因組145比對來重測序組裝區域或重疊群140,如參照150-1和150-2所示。這種讀長分析通常在計算機上遞歸地進行,以通過組裝算法來組裝片段。為了舉例說明的目的,其可以通過已知名為IDBA-UD的算法進行(參見例如Bioinformatics,2012,Jun1;28(11):1420-8.doi:10.1093/bioinformatics/bts174.Epub2012,April11,IDBA-UD:adenovoassemblerforsingle-cellandmetagenomicsequencingdatawithhighlyunevendepth.PengY,LeungHC,YiuSM,ChinFY)。與實施組裝算法的程序結合的鳥槍法測序方法可用于分析和重組裝數百萬個讀長以獲得通常包含高達30,000個堿基對的重疊群。然而,盡管該方法可能是有效的,但是由于基因組的大的重復部分在組裝步驟期間引入模糊性并且使組裝不完整,使得該方法具有限制性。為了提高組裝效率,可以使用DNA的空間結構。實際上,與從DNA環產生的片段之間的觀察到的接觸結合的DNA空間結構的理論知識可以用于解決重疊群之間的沖突/模糊性或幫助縮小DNA序列中的間隙。例如,通過確定兩個片段在空間上彼此接近,可以得出結論,這些片段沿著已從其獲得這些片段的DNA纖維彼此接近。這主要是得自聚合物理學(染色體是半柔性的聚合物鏈,其經常在自身上成環用于小的基因組分離)。使用染色體構象捕獲(3C)技術可以測定DNA的兩個部分的空間接近性。3C技術及其隨后的基因組變型(例如4C,5C和Hi-C)用于分析染色體的組構。圖2,包括圖2a至2f,示意性地示出了Hi-C技術的主要步驟。如圖2a所示,第一步涉及將靠近在一起的DNA部分(例如,部分200-1和200-2)交聯。這可以使用甲醛進行以用于將DNA的部分與蛋白質(例如蛋白質205)交聯以及用于使蛋白質彼此交聯。這導致使相接觸的DNA部分交聯。接下來,在第二步中,使用限制性酶將交聯的DNA片段片段化。因此,如圖2b所示,片段210-1和210-2分別由部分200-1和200-2的片段化產生。第三步旨在用產生平末端(以增加嵌合分子的比例)的修飾堿基(例如生物素)填充片段突出端。如圖2c所示,片段210-2的末端用產生平末端并允許連接片段的免疫沉淀的材料215-1和215-2填充。在圖2d所示的隨后步驟中,連接DNA片段末端。接下來,逆轉交聯并純化DNA。如圖2e所示,剪切DNA片段并分離包含連接接合點的片段。最后,如圖2f所示,將測序銜接子加入到DNA分子以產生可以測序的文庫。測序這些片段允許鑒定由于染色體的空間結構而靠近在一起的DNA的部分。對測序的DNA段的空間結構的知識還可以用于鑒定屬于一個或多個生物體的不同染色體的DNA的部分。實際上,可以認為DNA部分之間的接觸可以用于聚類屬于相同序列的DNA部分(通過考慮相接本文檔來自技高網...
    <a  title="用于組裝來自一個或多個生物體的染色體段的方法、設備和計算機程序原文來自X技術">用于組裝來自一個或多個生物體的染色體段的方法、設備和計算機程序</a>

    【技術保護點】
    一種用于基于代表至少一個文庫的所有DNA片段的一組原始子序列組裝代表至少一個生物體的至少一條染色體的至少一段的至少一個序列的用于計算機的方法,所述至少一個文庫包括包含所述至少一條染色體的連續核苷酸的鏈的DNA片段并且包括包含所述至少一條染色體的連續核苷酸的至少兩條鏈的組合的DNA片段,所述方法包括以下步驟:?獲得代表所述至少一條染色體的DNA區域之間的接觸頻率的第一值,所述第一值與代表相應DNA區域之間的距離的第二值相關聯;和?迭代地執行以下步驟:?基于所述第一和第二值并基于將DNA區域之間的接觸概率與相應DNA區域之間的距離相關聯的理論模型更新基因組結構,更新的基因組結構代表所述至少一個生物體的至少一條染色體的至少一段的真實基因組結構;和?更新作為更新的基因組結構的函數的所述理論模型的參數。

    【技術特征摘要】
    【國外來華專利技術】2014.06.24 EP 14305997.01.一種用于基于代表至少一個文庫的所有DNA片段的一組原始子序列組裝代表至少一個生物體的至少一條染色體的至少一段的至少一個序列的用于計算機的方法,所述至少一個文庫包括包含所述至少一條染色體的連續核苷酸的鏈的DNA片段并且包括包含所述至少一條染色體的連續核苷酸的至少兩條鏈的組合的DNA片段,所述方法包括以下步驟:-獲得代表所述至少一條染色體的DNA區域之間的接觸頻率的第一值,所述第一值與代表相應DNA區域之間的距離的第二值相關聯;和-迭代地執行以下步驟:-基于所述第一和第二值并基于將DNA區域之間的接觸概率與相應DNA區域之間的距離相關聯的理論模型更新基因組結構,更新的基因組結構代表所述至少一個生物體的至少一條染色體的至少一段的真實基因組結構;和-更新作為更新的基因組結構的函數的所述理論模型的參數。2.根據權利要求1所述的方法,其中兩個DNA區域之間的距離被測定為沿著預定路徑的兩個DNA區域之間的距離和/或兩個DNA區域之間的空間距離的函數。3.根據權利要求1或權利要求2所述的方法,還包括將代表至少一個文庫的所有DNA片段的原始子序列分成多個箱的步驟。4.根據權利要求1至3中任一項所述的方法,還包括產生多個基因組候選結構和計算每個所產生的候選基因組結構更接近于真實基因組結構的顯式似然值的步驟。5.根據權利要求4所述的方法,其中產生多個基因組候選結構的步驟基于包括易位、缺失、倒置和重復中的至少一種變化的預定結構變化。6.根據權利要求4或5所述的方法,其中根據多重嘗試Metropolis類型的規則選擇所生成的基因組候選結構之一作為相關聯的似然值的函數。7.根據權利要求4至6中任一項所述的方法,依賴于權利要求3,其中基因組候選結構通過箱的結構變化來確定。8.根據權利要求1至7中任一項所述的方法,其中更新理論模型參數的步驟基于Gibbs采樣類型的算法。9.根據權利要求1至8中任一項所述的方法,其中所述理論模型包括代表用于區分DNA區域之間的染色體內接觸與DNA區域之間的染色體內和染色體間接觸的閾值的至少一個參數。10.根據權利要求1至9中任一項所述的方法,其中所述理論模型包括代表用于區分DNA區域之間的染色體內接觸或DNA區域之間的染色體內和染色體間接觸與不同生物體之間的接觸的閾值的至少一個參數。11.根據權利要求1至9中任一項所述的方法,還包括對所述至少一個文庫的DNA片段進行聚類的步驟,其中每個聚簇與特定生物體相關,所述原始子序列對應于被處理用于基于聚簇測序的經聚類的DNA片段。12.根據權利要求11所述的方法,其中對所述文庫的DNA片段進行聚類的步驟基于Louvain類型的算法。13.根據...

    【專利技術屬性】
    技術研發人員:R·克祖爾,M·瑪波緹H·D·瑪瑞奈利,A·科納克,
    申請(專利權)人:巴斯德研究所,
    類型:發明
    國別省市:法國;FR

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 成人无码AV一区二区| 日韩精品无码中文字幕一区二区| 亚洲国产成人精品无码区在线秒播| 无码囯产精品一区二区免费| 久久亚洲精品无码av| 亚洲午夜福利AV一区二区无码| 亚洲AV无码片一区二区三区 | 亚洲AV无码一区二区三区系列 | 无码日韩人妻AV一区免费l| 亚洲AV永久无码精品| 无码人妻一区二区三区免费| 免费A级毛片无码A∨中文字幕下载| 波多野结衣AV无码| 影音先锋无码a∨男人资源站| 久久久久亚洲AV片无码| 国产在线拍偷自揄拍无码| 亚洲AV无码不卡在线观看下载| 久久亚洲AV成人无码国产电影| 久久无码中文字幕东京热| 国内精品人妻无码久久久影院| 精品人体无码一区二区三区| 精品久久久久久无码中文野结衣 | 波多野结衣AV无码| HEYZO无码综合国产精品227| 97无码免费人妻超级碰碰夜夜| 久久青青草原亚洲av无码app| 无码精品A∨在线观看中文| 国产真人无码作爱视频免费| 国产精品无码日韩欧| 亚洲精品~无码抽插| 国产精品三级在线观看无码| 亚洲欧洲日产国码无码久久99| 中文无码AV一区二区三区| 久久久久亚洲AV无码专区桃色 | 免费人妻av无码专区| 日韩乱码人妻无码中文视频| 国产成人综合日韩精品无码| 天堂无码久久综合东京热| 精品人妻系列无码人妻免费视频| 久久精品无码一区二区日韩AV| 丰满日韩放荡少妇无码视频 |