• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法及系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):10316114 閱讀:157 留言:0更新日期:2014-08-13 17:34
    本發(fā)明專利技術(shù)提供了一種檢測(cè)基因組區(qū)域表達(dá)水平(RPKM)的方法和系統(tǒng),采用本發(fā)明專利技術(shù),一方面,可以檢測(cè)出整個(gè)基因的表達(dá)水平及其所有外顯子各自的表達(dá)水平;另一個(gè)方面可以檢測(cè)出同一個(gè)基因不同的同源異構(gòu)體的表達(dá)水平及其所有外顯子各自的表達(dá)水平;最后還可以檢測(cè)出基因組任意指定區(qū)間的表達(dá)水平。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法及系統(tǒng)
    本專利技術(shù)涉及生物技術(shù)和生物信息學(xué)領(lǐng)域,具體涉及一種測(cè)定基因組區(qū)域表達(dá)水平的方法及系統(tǒng)。
    技術(shù)介紹
    生命遺傳信息的表達(dá)調(diào)控既是生物學(xué)研究的重點(diǎn)領(lǐng)域,也是揭示生物學(xué)各種生命現(xiàn)象的重要手段,尤其是隨著21世紀(jì)大量物種基因組序列的測(cè)定以及大量測(cè)序技術(shù)推陳出新,使得基因表達(dá)定量方面的研究突飛猛進(jìn)。測(cè)序技術(shù)也從傳統(tǒng)Sanger測(cè)序技術(shù),迅速發(fā)展為多種第二代高通量測(cè)序技術(shù),如羅氏454、IlluminaHiSeq和AB公司的SOLiD,以及第三代的單分子實(shí)時(shí)DNA測(cè)序技術(shù)。其中,Sanger測(cè)序技術(shù)和羅氏454測(cè)序技術(shù)的測(cè)序讀長(zhǎng)在700-1000bp,Illumina測(cè)序技術(shù)的測(cè)序讀長(zhǎng)平均100bp左右,而單分子實(shí)時(shí)DNA測(cè)序技術(shù)的讀長(zhǎng)達(dá)到了2500-3000bp。第二代測(cè)序技術(shù)也被稱為新一代測(cè)序技術(shù)(NGS,NextGenerationSequencing),目前主要是Illumina公司出的HiSeq為主,它通過(guò)從物種中提取出的RNA轉(zhuǎn)錄本中隨機(jī)進(jìn)行的短片段測(cè)序(通常平均讀長(zhǎng)50bp、75bp、100bp)獲得所測(cè)樣本的整體表達(dá)譜。轉(zhuǎn)錄本是通過(guò)以連續(xù)性基因組為模板進(jìn)行轉(zhuǎn)錄,然后剪切去除內(nèi)含子,拼接剩余的外顯子而形成的。測(cè)序過(guò)程中,如果一個(gè)轉(zhuǎn)錄本的豐度高,則測(cè)序后定位基因組區(qū)域的測(cè)序讀段也就多,可以通過(guò)對(duì)定位到基因上的外顯子區(qū)的測(cè)序讀段數(shù)來(lái)估計(jì)基因表達(dá)水平。測(cè)序讀段數(shù)除了與基因真實(shí)表達(dá)水平成正比,還與基因長(zhǎng)度成正比,同時(shí)也與測(cè)序深度即測(cè)序?qū)嶒?yàn)中得到的總讀段數(shù)正相關(guān)。為了保持對(duì)不同基因和不同實(shí)驗(yàn)間估計(jì)的基因表達(dá)值的可比性,Mortazavi等人提出了RPKM(ReadsPerKilo-baseperMillionreads)的概念,并成為RNA-seq應(yīng)用早期估計(jì)基因表達(dá)水平和外顯子表達(dá)水平的主要方法。RPKM是每百萬(wàn)讀段中來(lái)自于某基因每千堿基長(zhǎng)度的讀段數(shù),考慮了測(cè)序深度對(duì)讀段計(jì)數(shù)的影響。新一代測(cè)序技術(shù)的廣泛普及,使得RNA測(cè)序(RNA-seq)已成為基因表達(dá)和轉(zhuǎn)錄組分析的重要手段。在NGS測(cè)序技術(shù)出現(xiàn)之前,不同基因表達(dá)水平測(cè)量的主要手段是基因芯片,利用在基因芯片上高密度集成特點(diǎn)的寡核苷酸,可以對(duì)不同組織或者不同發(fā)育階段的特定基因表達(dá)差異和模式進(jìn)行分析。但是與基因芯片數(shù)據(jù)相比,RNA-seq得到的是全基因組轉(zhuǎn)錄水平的數(shù)字化信號(hào),具有高靈敏度、高分辨率、無(wú)飽和區(qū)等優(yōu)勢(shì)。隨著新一代測(cè)序技術(shù)的不斷進(jìn)步,產(chǎn)生的RNA-seq數(shù)據(jù)通量高、周期短和成本低,越來(lái)越多的人選擇轉(zhuǎn)錄組測(cè)序作為科學(xué)研究的首選。RPKM在評(píng)估基因表達(dá)水平上的作用越來(lái)越顯著,人們通過(guò)基因包含的外顯子信息,和轉(zhuǎn)錄組測(cè)序數(shù)據(jù)在基因組上的定位信息,來(lái)計(jì)算出RPKM值。FPKM(fragmentsperkilobaseofexonpermillionfragmentsmapped)也可以用來(lái)表示基因表達(dá)水平。FPKM與RPKM計(jì)算方法基本一致。不同點(diǎn)就是FPKM計(jì)算的是片段(fragments),而RPKM計(jì)算的是測(cè)序讀段(reads)。目前cufflinks軟件包中的cufflinks模塊和cuffdiff模塊及eXpress軟件可以計(jì)算相關(guān)基因表達(dá)水平,具體計(jì)算過(guò)程為,首先統(tǒng)計(jì)出映射定位到基因組上的所有測(cè)序讀段數(shù)目,然后統(tǒng)計(jì)出定位到各個(gè)基因外顯子區(qū)間上的所有測(cè)序讀段的數(shù)目,再計(jì)算出基因包含的外顯子的長(zhǎng)度,最后計(jì)算出基因的FPKM值。但是,上述軟件存在以下問(wèn)題:(1)目前大部分計(jì)算RPKM的程序,僅支持TopHat、Bowtie、bwa等少數(shù)常用的序列比對(duì)定位程序,不能支持所有的Illumina/Solexa測(cè)序平臺(tái)的讀段定位程序;(2)在選擇注釋文件的時(shí)候,通常僅支持已知的基因注釋文件,不能支持多種文件格式;(3)在計(jì)算基因表達(dá)水平的時(shí)候,通常計(jì)算的是片段的表達(dá)水平值,而不是整個(gè)基因的表達(dá)水平值;(4)在計(jì)算表達(dá)水平的時(shí)候,沒有計(jì)算出單個(gè)外顯子的表達(dá)水平;(5)在計(jì)算表達(dá)水平的時(shí)候,不能夠計(jì)算出基因組任意指定區(qū)間的表達(dá)水平;(6)在計(jì)算表達(dá)水平的時(shí)候,通常僅支持計(jì)算一個(gè)轉(zhuǎn)錄組測(cè)序結(jié)果,不能夠同時(shí)支持多個(gè)轉(zhuǎn)錄測(cè)序結(jié)果的基因表達(dá)水平的計(jì)算。因此,本領(lǐng)域期待一種能夠檢測(cè)基因表達(dá)水平和基因組任意指定區(qū)間表達(dá)水平的方法。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的是提供一種檢測(cè)基因組區(qū)域表達(dá)水平(RPKM)的方法和系統(tǒng)。本專利技術(shù)的第一方面提供了一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法,包括以下步驟:(1)對(duì)待測(cè)樣本進(jìn)行測(cè)序,獲得包含待測(cè)基因組區(qū)域轉(zhuǎn)錄本的轉(zhuǎn)錄組測(cè)序數(shù)據(jù);(2)將獲得的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)與同一物種的基因組序列進(jìn)行比對(duì);(3)對(duì)定位到基因組的轉(zhuǎn)錄組測(cè)序讀段進(jìn)行篩選,所述篩選包括去除測(cè)序質(zhì)量≤99.9%的轉(zhuǎn)錄組測(cè)序讀段;(4)將篩選后的轉(zhuǎn)錄組測(cè)序讀段,按照其定位到基因組上的起始位置進(jìn)行排序,并對(duì)排序結(jié)果建立索引;(5)根據(jù)待測(cè)基因組區(qū)域的位置信息,構(gòu)建出計(jì)算RPKM的基因注釋文件;(6)計(jì)算能夠映射到基因組上的所有測(cè)序讀段的總數(shù)M;(7)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件計(jì)算出定位至待測(cè)DNA區(qū)間上所有測(cè)序讀段的總數(shù)R;(8)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件,計(jì)算出待測(cè)DNA區(qū)間所有被測(cè)序讀段定位的序列長(zhǎng)度L;和(9)根據(jù)上述步驟(6)-(8)的計(jì)算結(jié)果,將步驟(7)得到的R除以步驟(6)得到的M與步驟(8)得到的L乘以109,得待測(cè)基因組區(qū)域的RPKM值,即為待測(cè)基因組區(qū)域的表達(dá)水平,計(jì)算公式如下,在另一優(yōu)選例中,所述待測(cè)基因組區(qū)域包含N個(gè)同源異構(gòu)體,且N≥2。如N可以為2、3、4、5、6、7、8、9、10或大于10。在另一優(yōu)選例中,所述方法還包括結(jié)果驗(yàn)證步驟:提取待測(cè)樣品的總RNA,經(jīng)過(guò)反轉(zhuǎn)錄得到其cDNA,以cDNA作為模板進(jìn)行PCR檢測(cè),驗(yàn)證待測(cè)基因組區(qū)域的表達(dá)水平。在另一優(yōu)選例中,所述步驟(5)中所述注釋文件整合有已有的基因注釋信息、新預(yù)測(cè)的基因注釋信息和/或基因組任意指定區(qū)間的注釋信息。在另一優(yōu)選例中,所述待測(cè)基因組區(qū)域表達(dá)水平,可以為單個(gè)基因的表達(dá)水平、同一個(gè)基因不同的同源異構(gòu)體的表達(dá)水平、所有外顯子的表達(dá)水平、單個(gè)外顯子的表達(dá)水平以及基因組任意指定區(qū)間的表達(dá)水平。在另一優(yōu)選例中,當(dāng)所述待測(cè)基因組區(qū)域中包含兩個(gè)以上的同源異構(gòu)體基因序列時(shí),在測(cè)定過(guò)程中還包括步驟:將各同源異構(gòu)體的所有外顯子進(jìn)行整合,對(duì)于重復(fù)的序列區(qū)間,僅保留單一序列,從而將同一待測(cè)基因組區(qū)域中的不同同源異構(gòu)體的外顯子整合成單一序列,將該單一序列的長(zhǎng)度作為計(jì)算該基因組區(qū)域表達(dá)水平時(shí)的序列長(zhǎng)度L。在另一優(yōu)選例中,所述步驟(1)中,所述轉(zhuǎn)錄組序列數(shù)據(jù)由羅氏454測(cè)序技術(shù)、Illumina測(cè)序技術(shù)、AB公司的SOLiD技術(shù)、或者第三代的單分子實(shí)時(shí)DNA測(cè)序技術(shù)獲得。在另一優(yōu)選例中,所述步驟(2)中,序列比對(duì)程序?yàn)閠ophat2,以程序默認(rèn)參數(shù)進(jìn)行比對(duì)。在另一優(yōu)選例中,所述步驟(2)中,比對(duì)結(jié)果存儲(chǔ)為SAM(SequenceAlignment/Map)格式或其二進(jìn)制版本BAM格式的定位文件。在另一優(yōu)選例中,所述步驟(4)中,所述排序方法為:a.按照每條測(cè)序讀段定位到基因組的起始位置進(jìn)行排序;b.如果測(cè)序讀段在基因組位置中的起始位置相同,按照其定位到基因組的先后本文檔來(lái)自技高網(wǎng)
    ...
    一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法及系統(tǒng)

    【技術(shù)保護(hù)點(diǎn)】
    一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法,其特征在于,包括以下步驟:(1)對(duì)待測(cè)樣本進(jìn)行測(cè)序,獲得包含待測(cè)基因組區(qū)域轉(zhuǎn)錄本的轉(zhuǎn)錄組測(cè)序數(shù)據(jù);(2)將獲得的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)與同一物種的基因組序列進(jìn)行比對(duì);(3)對(duì)定位到基因組的轉(zhuǎn)錄組測(cè)序讀段進(jìn)行篩選,所述篩選包括去除測(cè)序質(zhì)量≤99.9%的轉(zhuǎn)錄組測(cè)序讀段;(4)將篩選后的轉(zhuǎn)錄組測(cè)序讀段,按照其定位到基因組上的起始位置進(jìn)行排序,并對(duì)排序結(jié)果建立索引;(5)根據(jù)待測(cè)基因組區(qū)域的位置信息,構(gòu)建出計(jì)算RPKM的基因注釋文件;(6)計(jì)算能夠映射到基因組上的所有測(cè)序讀段的總數(shù)M;(7)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件計(jì)算出定位至待測(cè)DNA區(qū)間上所有測(cè)序讀段的總數(shù)R;(8)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件,計(jì)算出待測(cè)DNA區(qū)間所有被測(cè)序讀段定位的序列長(zhǎng)度L;和(9)根據(jù)上述步驟(6)?(8)的計(jì)算結(jié)果,將步驟(7)得到的R除以步驟(6)得到的M與步驟(8)得到的L乘以109,得待測(cè)基因組區(qū)域的RPKM值,即為待測(cè)基因組區(qū)域的表達(dá)水平,計(jì)算公式如下,RPKM=RM×L×109.]]>

    【技術(shù)特征摘要】
    1.一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法,其特征在于,包括以下步驟:(1)對(duì)待測(cè)樣本進(jìn)行測(cè)序,獲得包含待測(cè)基因組區(qū)域轉(zhuǎn)錄本的轉(zhuǎn)錄組測(cè)序數(shù)據(jù);(2)將獲得的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)與同一物種的基因組序列進(jìn)行比對(duì);(3)對(duì)定位到基因組的轉(zhuǎn)錄組測(cè)序讀段進(jìn)行篩選,所述篩選包括去除測(cè)序質(zhì)量≤99.9%的轉(zhuǎn)錄組測(cè)序讀段;(4)將篩選后的轉(zhuǎn)錄組測(cè)序讀段,按照其定位到基因組上的起始位置進(jìn)行排序,并對(duì)排序結(jié)果建立索引;(5)根據(jù)待測(cè)基因組區(qū)域的位置信息,構(gòu)建出計(jì)算RPKM的基因注釋文件;(6)計(jì)算能夠映射到基因組上的所有測(cè)序讀段的總數(shù)M;(7)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件計(jì)算出定位至待測(cè)DNA區(qū)間上所有測(cè)序讀段的總數(shù)R;(8)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件,計(jì)算出待測(cè)DNA區(qū)間所有被測(cè)序讀段定位的序列長(zhǎng)度L;和(9)根據(jù)上述步驟(6)-(8)的計(jì)算結(jié)果,將步驟(7)得到的R除以步驟(6)得到的M與步驟(8)得到的L乘以109,得待測(cè)基因組區(qū)域的RPKM值,即為待測(cè)基因組區(qū)域的表達(dá)水平,計(jì)算公式如下,其中,所述待測(cè)基因組區(qū)域包含N個(gè)同源異構(gòu)體,且N≥2;并且,在測(cè)定過(guò)程中還包括步驟:將各同源異構(gòu)體的所有外顯子進(jìn)行整合,對(duì)于重復(fù)的序列區(qū)間,僅保留單一序列,從而將同一待測(cè)基因組區(qū)域中的不同同源異構(gòu)體的外顯子整合成單一序列,將該單一序列的長(zhǎng)度作為計(jì)算該基因組區(qū)域表達(dá)水平時(shí)的序列長(zhǎng)度L。2.如權(quán)利要求1所述的方法,其特征在于,N為2、3、4、5、6、7、8、9、10或大于10。3.如權(quán)利要求2所述的方法,其特征在于,所述方法還包括結(jié)果驗(yàn)證步驟,所述結(jié)果驗(yàn)證步驟包括:提取待測(cè)樣品的總RNA,經(jīng)過(guò)反轉(zhuǎn)錄得到其cDNA,以cDNA作為模板進(jìn)行PCR檢測(cè),驗(yàn)證待測(cè)基因組區(qū)域的表達(dá)水平。4.如權(quán)利要求3所述的方法,其特征在于,所述待測(cè)基因組區(qū)域表達(dá)水平,為單個(gè)基因的表達(dá)水平、同一個(gè)基因不同的同源異構(gòu)體的表達(dá)水平、所有外顯子的表達(dá)水平、單個(gè)外顯子的表達(dá)水平以及基因組任意指定區(qū)間的表達(dá)水平,其中所述基因組任意指定區(qū)間包含染色體名稱、基因組起始位置和基因組終止位置。5.如權(quán)利要求1所述的方法,其特征在于,所述步驟(1)中,所述轉(zhuǎn)錄組序列數(shù)據(jù)由羅氏454測(cè)序技術(shù)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:楊力朱閃閃薛尉
    申請(qǐng)(專利權(quán))人:中國(guó)科學(xué)院上海生命科學(xué)研究院
    類型:發(fā)明
    國(guó)別省市:上海;31

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 日韩免费无码一区二区视频| 日韩精品专区AV无码| 亚洲爆乳无码精品AAA片蜜桃| 人妻少妇乱子伦无码视频专区| 无码少妇一区二区浪潮免费| 无码国产亚洲日韩国精品视频一区二区三区 | 国产成年无码久久久久下载 | 亚洲成?v人片天堂网无码| 亚洲av无码专区国产乱码在线观看| 精品无码免费专区毛片| 超清无码熟妇人妻AV在线电影| 免费看成人AA片无码视频羞羞网| 久久亚洲精品无码播放| 中文字幕韩国三级理论无码| 亚洲A∨无码无在线观看| 无码色偷偷亚洲国内自拍| 无码囯产精品一区二区免费 | 日韩精品无码久久一区二区三| 亚洲AV日韩AV永久无码绿巨人| 人妻无码精品久久亚瑟影视| 亚洲欧洲国产综合AV无码久久| 亚洲熟妇无码AV在线播放| 国产成人无码av片在线观看不卡| 在人线av无码免费高潮喷水| 无码人妻精品一区二区三区在线| yy111111电影院少妇影院无码| 亚洲heyzo专区无码综合| 亚洲va成无码人在线观看 | 久久无码国产专区精品| 亚洲AV无码一区东京热| 韩国19禁无遮挡啪啪无码网站| 国产乱子伦精品免费无码专区| 国产精品无码久久av不卡| 妖精色AV无码国产在线看| 精品久久久无码中字| 免费无码一区二区三区蜜桃大| 国产在线拍揄自揄拍无码视频| 蜜桃无码一区二区三区| 中字无码av电影在线观看网站| 日韩毛片免费无码无毒视频观看| 成人无码精品一区二区三区|