【技術(shù)實(shí)現(xiàn)步驟摘要】
一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法及系統(tǒng)
本專利技術(shù)涉及生物技術(shù)和生物信息學(xué)領(lǐng)域,具體涉及一種測(cè)定基因組區(qū)域表達(dá)水平的方法及系統(tǒng)。
技術(shù)介紹
生命遺傳信息的表達(dá)調(diào)控既是生物學(xué)研究的重點(diǎn)領(lǐng)域,也是揭示生物學(xué)各種生命現(xiàn)象的重要手段,尤其是隨著21世紀(jì)大量物種基因組序列的測(cè)定以及大量測(cè)序技術(shù)推陳出新,使得基因表達(dá)定量方面的研究突飛猛進(jìn)。測(cè)序技術(shù)也從傳統(tǒng)Sanger測(cè)序技術(shù),迅速發(fā)展為多種第二代高通量測(cè)序技術(shù),如羅氏454、IlluminaHiSeq和AB公司的SOLiD,以及第三代的單分子實(shí)時(shí)DNA測(cè)序技術(shù)。其中,Sanger測(cè)序技術(shù)和羅氏454測(cè)序技術(shù)的測(cè)序讀長(zhǎng)在700-1000bp,Illumina測(cè)序技術(shù)的測(cè)序讀長(zhǎng)平均100bp左右,而單分子實(shí)時(shí)DNA測(cè)序技術(shù)的讀長(zhǎng)達(dá)到了2500-3000bp。第二代測(cè)序技術(shù)也被稱為新一代測(cè)序技術(shù)(NGS,NextGenerationSequencing),目前主要是Illumina公司出的HiSeq為主,它通過(guò)從物種中提取出的RNA轉(zhuǎn)錄本中隨機(jī)進(jìn)行的短片段測(cè)序(通常平均讀長(zhǎng)50bp、75bp、100bp)獲得所測(cè)樣本的整體表達(dá)譜。轉(zhuǎn)錄本是通過(guò)以連續(xù)性基因組為模板進(jìn)行轉(zhuǎn)錄,然后剪切去除內(nèi)含子,拼接剩余的外顯子而形成的。測(cè)序過(guò)程中,如果一個(gè)轉(zhuǎn)錄本的豐度高,則測(cè)序后定位基因組區(qū)域的測(cè)序讀段也就多,可以通過(guò)對(duì)定位到基因上的外顯子區(qū)的測(cè)序讀段數(shù)來(lái)估計(jì)基因表達(dá)水平。測(cè)序讀段數(shù)除了與基因真實(shí)表達(dá)水平成正比,還與基因長(zhǎng)度成正比,同時(shí)也與測(cè)序深度即測(cè)序?qū)嶒?yàn)中得到的總讀段數(shù)正相關(guān)。為了保持對(duì)不同基因和不同實(shí)驗(yàn)間估計(jì)的基因表達(dá)值的可比性,M ...
【技術(shù)保護(hù)點(diǎn)】
一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法,其特征在于,包括以下步驟:(1)對(duì)待測(cè)樣本進(jìn)行測(cè)序,獲得包含待測(cè)基因組區(qū)域轉(zhuǎn)錄本的轉(zhuǎn)錄組測(cè)序數(shù)據(jù);(2)將獲得的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)與同一物種的基因組序列進(jìn)行比對(duì);(3)對(duì)定位到基因組的轉(zhuǎn)錄組測(cè)序讀段進(jìn)行篩選,所述篩選包括去除測(cè)序質(zhì)量≤99.9%的轉(zhuǎn)錄組測(cè)序讀段;(4)將篩選后的轉(zhuǎn)錄組測(cè)序讀段,按照其定位到基因組上的起始位置進(jìn)行排序,并對(duì)排序結(jié)果建立索引;(5)根據(jù)待測(cè)基因組區(qū)域的位置信息,構(gòu)建出計(jì)算RPKM的基因注釋文件;(6)計(jì)算能夠映射到基因組上的所有測(cè)序讀段的總數(shù)M;(7)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件計(jì)算出定位至待測(cè)DNA區(qū)間上所有測(cè)序讀段的總數(shù)R;(8)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件,計(jì)算出待測(cè)DNA區(qū)間所有被測(cè)序讀段定位的序列長(zhǎng)度L;和(9)根據(jù)上述步驟(6)?(8)的計(jì)算結(jié)果,將步驟(7)得到的R除以步驟(6)得到的M與步驟(8)得到的L乘以109,得待測(cè)基因組區(qū)域的RPKM值,即為待測(cè)基因組區(qū)域的表達(dá)水平,計(jì)算公式如下,RPKM=RM×L×109.]]>
【技術(shù)特征摘要】
1.一種測(cè)定待測(cè)基因組區(qū)域表達(dá)水平的方法,其特征在于,包括以下步驟:(1)對(duì)待測(cè)樣本進(jìn)行測(cè)序,獲得包含待測(cè)基因組區(qū)域轉(zhuǎn)錄本的轉(zhuǎn)錄組測(cè)序數(shù)據(jù);(2)將獲得的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)與同一物種的基因組序列進(jìn)行比對(duì);(3)對(duì)定位到基因組的轉(zhuǎn)錄組測(cè)序讀段進(jìn)行篩選,所述篩選包括去除測(cè)序質(zhì)量≤99.9%的轉(zhuǎn)錄組測(cè)序讀段;(4)將篩選后的轉(zhuǎn)錄組測(cè)序讀段,按照其定位到基因組上的起始位置進(jìn)行排序,并對(duì)排序結(jié)果建立索引;(5)根據(jù)待測(cè)基因組區(qū)域的位置信息,構(gòu)建出計(jì)算RPKM的基因注釋文件;(6)計(jì)算能夠映射到基因組上的所有測(cè)序讀段的總數(shù)M;(7)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件計(jì)算出定位至待測(cè)DNA區(qū)間上所有測(cè)序讀段的總數(shù)R;(8)根據(jù)上述步驟(5)構(gòu)建的基因注釋文件,計(jì)算出待測(cè)DNA區(qū)間所有被測(cè)序讀段定位的序列長(zhǎng)度L;和(9)根據(jù)上述步驟(6)-(8)的計(jì)算結(jié)果,將步驟(7)得到的R除以步驟(6)得到的M與步驟(8)得到的L乘以109,得待測(cè)基因組區(qū)域的RPKM值,即為待測(cè)基因組區(qū)域的表達(dá)水平,計(jì)算公式如下,其中,所述待測(cè)基因組區(qū)域包含N個(gè)同源異構(gòu)體,且N≥2;并且,在測(cè)定過(guò)程中還包括步驟:將各同源異構(gòu)體的所有外顯子進(jìn)行整合,對(duì)于重復(fù)的序列區(qū)間,僅保留單一序列,從而將同一待測(cè)基因組區(qū)域中的不同同源異構(gòu)體的外顯子整合成單一序列,將該單一序列的長(zhǎng)度作為計(jì)算該基因組區(qū)域表達(dá)水平時(shí)的序列長(zhǎng)度L。2.如權(quán)利要求1所述的方法,其特征在于,N為2、3、4、5、6、7、8、9、10或大于10。3.如權(quán)利要求2所述的方法,其特征在于,所述方法還包括結(jié)果驗(yàn)證步驟,所述結(jié)果驗(yàn)證步驟包括:提取待測(cè)樣品的總RNA,經(jīng)過(guò)反轉(zhuǎn)錄得到其cDNA,以cDNA作為模板進(jìn)行PCR檢測(cè),驗(yàn)證待測(cè)基因組區(qū)域的表達(dá)水平。4.如權(quán)利要求3所述的方法,其特征在于,所述待測(cè)基因組區(qū)域表達(dá)水平,為單個(gè)基因的表達(dá)水平、同一個(gè)基因不同的同源異構(gòu)體的表達(dá)水平、所有外顯子的表達(dá)水平、單個(gè)外顯子的表達(dá)水平以及基因組任意指定區(qū)間的表達(dá)水平,其中所述基因組任意指定區(qū)間包含染色體名稱、基因組起始位置和基因組終止位置。5.如權(quán)利要求1所述的方法,其特征在于,所述步驟(1)中,所述轉(zhuǎn)錄組序列數(shù)據(jù)由羅氏454測(cè)序技術(shù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊力,朱閃閃,薛尉,
申請(qǐng)(專利權(quán))人:中國(guó)科學(xué)院上海生命科學(xué)研究院,
類型:發(fā)明
國(guó)別省市:上海;31
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。