用于組裝來自一個或多個生物體的染色體段的方法、設備和計算機程序技術

技術編號：14740200 閱讀：69 留言：0更新日期：2017-03-01 14:24

本發明專利技術涉及從代表文庫的DNA片段的一組原始子序列組裝代表至少一條染色體段的序列，所述文庫包括包含連續核苷酸的鏈的DNA片段并且包括包含連續核苷酸的至少兩條鏈的組合的DNA片段。在獲得代表DNA區域之間的接觸頻率的第一值之后，所述第一值與代表相應DNA區域之間的距離的第二值相關聯，迭代地進行以下步驟：?基于所述第一和第二值并基于將DNA區域之間的接觸概率與相應DNA區域之間的距離相關聯的理論模型更新基因組結構，更新的基因組結構代表染色體的真實基因組結構；和?更新作為更新的基因組結構的函數的所述理論模型的參數。

全部詳細技術資料下載

【技術實現步驟摘要】
【國外來華專利技術】專利
本專利技術總體上涉及基因組組裝的領域。更具體地，本專利技術涉及用于使用與高通量測序結合的染色體構象捕獲來組裝一個或多個生物體的一個或多個基因組的方法、設備和計算機程序。專利技術背景微生物群落是維持環境穩定性和健康活生物體的基礎。微生物物種最初是單獨研究的，并且已經導致在諸如農業經濟學、醫學或消除污染的多種領域中開發了許多技術。由于技術的進步，現在有可能通過宏基因組學方法研究微生物群落的復雜性(例如超過100,000種不同的物種共存于一克土壤中，或數十億微生物共存于人體內)。宏基因組學研究主要在于收集、測序和分析從直接從諸如皮膚、深海、腸、土壤、水等多樣的環境中收集的微生物群落直接提取的遺傳物質。DNA(脫氧核糖核酸)分子的數百萬個隨機段(其可以克隆到載體中)構成可以覆蓋成千上萬種不同物種的文庫。對這樣的文庫的計算機(insilico)和實驗分析導致發現新的基因和酶、新的網絡和潛在的新物種(在地球上尚未發現的超過一千萬種物種中的)。這種新方法不僅目前正在徹底改變我們對世界的理解，而且將最顯著地在醫學、能源和農業經濟學領域中促進工業應用。許多公司已經開始挖掘這種未知的微生物多樣性的巨大資源，同時一些機構和學院預測了關于這一新領域的未來的巨大前景。測序深度、讀長長度和質量的快速改善已導致在集合種群內相對低豐度物種的基因組的表征。然而，由于在匯集重疊群和組裝個體物種的大染色體區域的支架(scaffold)上遇到的困難，微生物群體的宏基因組分析仍然是有限的，從而損害其基因組中包含的信息的充分利用?；蚪M測序旨在確定DNA分子內核苷酸的順序。DNA分子由兩個...
<a title="用于組裝來自一個或多個生物體的染色體段的方法、設備和計算機程序原文來自X技術">用于組裝來自一個或多個生物體的染色體段的方法、設備和計算機程序</a>

【技術保護點】
一種用于基于代表至少一個文庫的所有DNA片段的一組原始子序列組裝代表至少一個生物體的至少一條染色體的至少一段的至少一個序列的用于計算機的方法，所述至少一個文庫包括包含所述至少一條染色體的連續核苷酸的鏈的DNA片段并且包括包含所述至少一條染色體的連續核苷酸的至少兩條鏈的組合的DNA片段，所述方法包括以下步驟：?獲得代表所述至少一條染色體的DNA區域之間的接觸頻率的第一值，所述第一值與代表相應DNA區域之間的距離的第二值相關聯；和?迭代地執行以下步驟：?基于所述第一和第二值并基于將DNA區域之間的接觸概率與相應DNA區域之間的距離相關聯的理論模型更新基因組結構，更新的基因組結構代表所述至少一個生物體的至少一條染色體的至少一段的真實基因組結構；和?更新作為更新的基因組結構的函數的所述理論模型的參數。

【技術特征摘要】
【國外來華專利技術】2014.06.24 EP 14305997.01.一種用于基于代表至少一個文庫的所有DNA片段的一組原始子序列組裝代表至少一個生物體的至少一條染色體的至少一段的至少一個序列的用于計算機的方法，所述至少一個文庫包括包含所述至少一條染色體的連續核苷酸的鏈的DNA片段并且包括包含所述至少一條染色體的連續核苷酸的至少兩條鏈的組合的DNA片段，所述方法包括以下步驟：-獲得代表所述至少一條染色體的DNA區域之間的接觸頻率的第一值，所述第一值與代表相應DNA區域之間的距離的第二值相關聯；和-迭代地執行以下步驟：-基于所述第一和第二值并基于將DNA區域之間的接觸概率與相應DNA區域之間的距離相關聯的理論模型更新基因組結構，更新的基因組結構代表所述至少一個生物體的至少一條染色體的至少一段的真實基因組結構；和-更新作為更新的基因組結構的函數的所述理論模型的參數。2.根據權利要求1所述的方法，其中兩個DNA區域之間的距離被測定為沿著預定路徑的兩個DNA區域之間的距離和/或兩個DNA區域之間的空間距離的函數。3.根據權利要求1或權利要求2所述的方法，還包括將代表至少一個文庫的所有DNA片段的原始子序列分成多個箱的步驟。4.根據權利要求1至3中任一項所述的方法，還包括產生多個基因組候選結構和計算每個所產生的候選基因組結構更接近于真實基因組結構的顯式似然值的步驟。5.根據權利要求4所述的方法，其中產生多個基因組候選結構的步驟基于包括易位、缺失、倒置和重復中的至少一種變化的預定結構變化。6.根據權利要求4或5所述的方法，其中根據多重嘗試Metropolis類型的規則選擇所生成的基因組候選結構之一作為相關聯的似然值的函數。7.根據權利要求4至6中任一項所述的方法，依賴于權利要求3，其中基因組候選結構通過箱的結構變化來確定。8.根據權利要求1至7中任一項所述的方法，其中更新理論模型參數的步驟基于Gibbs采樣類型的算法。9.根據權利要求1至8中任一項所述的方法，其中所述理論模型包括代表用于區分DNA區域之間的染色體內接觸與DNA區域之間的染色體內和染色體間接觸的閾值的至少一個參數。10.根據權利要求1至9中任一項所述的方法，其中所述理論模型包括代表用于區分DNA區域之間的染色體內接觸或DNA區域之間的染色體內和染色體間接觸與不同生物體之間的接觸的閾值的至少一個參數。11.根據權利要求1至9中任一項所述的方法，還包括對所述至少一個文庫的DNA片段進行聚類的步驟，其中每個聚簇與特定生物體相關，所述原始子序列對應于被處理用于基于聚簇測序的經聚類的DNA片段。12.根據權利要求11所述的方法，其中對所述文庫的DNA片段進行聚類的步驟基于Louvain類型的算法。13.根據...

【專利技術屬性】
技術研發人員：R·克祖爾，M·瑪波緹，H·D·瑪瑞奈利，A·科納克，
申請(專利權)人：巴斯德研究所，
類型：發明
國別省市：法國;FR

全部詳細技術資料下載我是這個專利的主人

相關技術