• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于轉錄組數據確定腫瘤標記物的方法技術

    技術編號:15691298 閱讀:88 留言:0更新日期:2017-06-24 04:23
    本發明專利技術公開一種基于轉錄組數據確定腫瘤標記物的方法,包括:(1)獲得轉錄組數據,包括第一和第二轉錄組數據,第一和第二轉錄組數據分別包括第一和第二個體樣本的mRNA、lncRNA和miRNA表達數據,第一和第二個體樣本的區別包括分別具有一對相對表型特征中的一個;(2)分別建立個體具有表型特征與三種RNA表達量關系的正則化邏輯回歸模型,分別利用模型對三種RNA表達數據進行回歸,獲得三種RNA分子回歸系數;(3)利用網格搜索,分別依據三種RNA分子回歸系數確定三種RNA閾值;(4)分別將三種RNA分子回歸系數與對應閾值比較,確定三種RNA候選標記;(5)混合三種RNA候選標記物獲得RNA混合數據,以RNA混合數據替代轉錄組數據進行(2)-(4),確定腫瘤標記物。

    Method for identifying tumor markers based on transcriptome data

    The invention discloses a method for determining tumor markers based on transcriptome data includes: (1) to obtain the transcriptome data, including the first and second transcriptome data, the first and second transcriptome data respectively include first and second individual samples of mRNA, lncRNA and miRNA expression data, distinguish between the first and second individual samples including each has a characteristic of a relative phenotype; (2) were established with individual phenotypic characteristics and three kinds of RNA expression regularization logic relationship of regression model, respectively, using the model of three kinds of RNA expression data regression, obtained three kinds of RNA regression coefficient; (3) using the grid search, according to three kinds of RNA regression coefficients of three kinds of RNA threshold; (4) respectively, three RNA molecules and corresponding regression coefficient threshold comparison, identified three candidate RNA markers; (5) mixing three RNA candidate Markers were obtained from RNA mixed data, using RNA mixed data instead of transcriptome data (2) - (4) to identify tumor markers.

    【技術實現步驟摘要】
    基于轉錄組數據確定腫瘤標記物的方法
    本專利技術涉及生物信息學領域,具體的,本專利技術涉及一種基于轉錄組數據確定腫瘤標記物的方法和一組腫瘤標記物。
    技術介紹
    每個細胞都有復雜的基因表達調控系統,通過相互協作來行使正常的生物學功能。對于復雜疾病生物系統的研究,需要整合實驗和計算學方法來分析多層面的調控關系數據,進而發現致病機理,促進疾病的診斷和治療。研究發現,一些基因在腫瘤組織中的異常表達,與腫瘤的發生、發展密切相關,進而成為重要的腫瘤標記物。此外,一些非編碼RNA(比如microRNA、lncRNA等)在生命活動中也具有重要的調控功能,介導參與腫瘤的發生發展等生理病理過程。高通量組學技術的發展使我們能夠從DNA、RNA、DAN蛋白等分子水平去探索生命活動的調節機制,發現跟腫瘤的診斷與治療相關的分子標志物。目前,基于腫瘤的基因表達數據的研究,發現了很多跟腫瘤的發生發展相關的異常表達因子,其中差異分析,生存分析,聚類分析等是常用的分析方法。而隨著芯片技術的發展,microRNA、lncRNA等非編碼RNA的表達數據逐漸獲得,并用于腫瘤分子標記物尋找的研究當中。但是,多數的研究都是基于單一類型的轉錄組表達數據進行分析,尋找到潛在的分子標記物,用于腫瘤的預后預測等。而對于少數的整合分析的研究,也僅限于對不同類型的RNA分子的表達數據進行相關性分析,預測RNA分子之間潛在的調控關系。現有的這種基于單一類型的分子標記物進行腫瘤預后風險預測的方法存在一定的局限性,因為腫瘤具有較強的異質性,內部的調控系統是非常復雜的,不同類型的分子在不同層面起調控作用,基于單一類型的組學數據很難找到能夠精確預測疾病預后的分子標記物。單一類型的分子標記物只能在一定程度上反應腫瘤內部的一些特征。
    技術實現思路
    本專利技術旨在至少在一定程度上解決上述技術問題之一或至少提供一種商業選擇。依據本專利技術的一方面,本專利技術提供一種基于轉錄組數據確定腫瘤標記物的方法,該方法包括步驟:(1)獲得轉錄組數據,所述轉錄組數據包括多個個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述轉錄組數據包括第一轉錄組數據和第二轉錄組數據,所述第一轉錄組數據包括多個第一個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第二轉錄組數據包括多個第二個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第一個體樣本和所述第二個體樣本分別具有一對相對表型特征中的一個,所述表型特征與所述腫瘤相關;(2)分別建立個體存在所述表型特征與所述個體的mRNA、lncRNA和miRNA表達量的關系的正則化的邏輯回歸模型,分別利用建立的正則化的邏輯回歸模型對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子進行回歸分析,確定mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數;(3)利用網格搜索,分別依據所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數確定mRNA閾值、lncRNA閾值和miRNA閾值;(4)分別將所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數與其對應的閾值比較,以確定mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物;(5)混合所述mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物,獲得RNA混合數據,以所述RNA混合數據替代所述轉錄組數據進行步驟(2)-(4),以確定所述腫瘤標記物。依據本專利技術的另一方面,本專利技術提供一組腫瘤標記物,所述腫瘤標記物利用上述本專利技術一方面的方法確定。上述本專利技術的一方面的方法,將不同類型的RNA分子進行整合分析,挖掘出跟腫瘤發生發展相關的分子組合標記物,即確定能夠預測腫瘤發生發展的RNA分子組合,作為腫瘤標記物。利用本專利技術的這一方法及確定的RNA特征因子組合能夠提高腫瘤的發生風險、預后風險等的預測性能。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施方式的描述中將變得明顯和容易理解,其中:圖1是本專利技術的實施例中的mRNA特征因子的分類效果的ROC評估曲線;圖2是本專利技術的實施例中的miRNA特征因子的分類效果的ROC評估曲線;圖3是本專利技術的實施例中的lncRNA特征因子的分類效果的ROC評估曲線;圖4是本專利技術的實施例中的三種類型RNA組合特征因子的分類效果的ROC評估曲線;圖5是本專利技術的實施例中的基于轉錄組數據確定腫瘤標記物的方法的流程示意圖。具體實施方式根據本專利技術的一個實施方式提供的一種基于轉錄組數據確定腫瘤標記物的方法,該方法包括步驟以下步驟:(1)獲得轉錄組數據。獲取轉錄組數據,所述轉錄組數據包括多個個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述轉錄組數據包括第一轉錄組數據和第二轉錄組數據,所述第一轉錄組數據包括多個第一個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第二轉錄組數據包括多個第二個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第一個體樣本和所述第二個體樣本分別具有一對相對表型特征中的一個,所述表型特征與所述腫瘤相關。所稱的相對表型特征為腫瘤發生發展相關的特征,一對相對表型特征例如為致癌與不致癌、預后生存時間大于5年與小于5年、癌轉移與癌未轉移等,對應的,最終確定的腫瘤標記物可用于預測個體是否患病、預后情況、癌是否發生等。轉錄組數據可以來自基因芯片數據,也可以來自測序數據。根據本專利技術的一個實施例,所稱的轉錄組數據為經過標準化處理的基因芯片數據。對基因芯片數據的標準化處理,主要目的是消除由于實驗技術所導致的表達量的變化,并且使各個樣本和平行實驗的數據處于相同的水平,從而使可以得到具有生物學意義的基因表達量的變化。根據本專利技術的一個實施例,所稱轉錄組數據經過分位數標準化處理。分位數標準化(QuantileNormalization)屬于芯片間數據標準化,一般芯片的雜交實驗很容易產生誤差,所以經常一個樣本要做3~6次的重復實驗;平行實驗間的數據差異可以通過QuantileNormalization去處掉。總平行實驗的前提條件是假設n次實驗的數據具有相同的分布,其算法主要分為三步:1)對每張芯片的數據點排序;2)求出同一位置的幾次重復實驗數據的均值,并用該均值代替該位置的基因的表達量;3)將每個基因還原到本身的位置上。根據本專利技術的一個實施例,專利技術人從NCBIGEO數據庫下載得119個食管癌(ESCC)樣本的正常組織和腫瘤組織的mRNA,lncRNA以及miRNA芯片表達數據。所稱mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子均為在正常樣本和ESCC腫瘤樣本中表達具有顯著性差異的RNA分子。按照生存時間是否大于5年,可將這119個ESCC樣本分成預后生存時間大于5年(long-term)和小于5年(short-term)兩個組。根據本專利技術的一個實施例,所稱的轉錄組通過對RNA進行測序文庫制備、上機測序獲得,獲取所稱轉錄組數據,可以包括:獲取樣本中的RNA,制備RNA測序文庫,對RNA測序文庫進行測序。測序文庫的制備方法根本文檔來自技高網
    ...
    基于轉錄組數據確定腫瘤標記物的方法

    【技術保護點】
    一種基于轉錄組數據確定腫瘤標記物的方法,其特征在于,包括:(1)獲得轉錄組數據,所述轉錄組數據包括多個個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述轉錄組數據包括第一轉錄組數據和第二轉錄組數據,所述第一轉錄組數據包括多個第一個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第二轉錄組數據包括多個第二個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第一個體樣本和所述第二個體樣本分別具有一對相對表型特征中的一個,所述表型特征與所述腫瘤相關;(2)分別建立個體存在所述表型特征與所述個體的mRNA、lncRNA和miRNA表達量的關系的正則化的邏輯回歸模型,分別利用建立的正則化的邏輯回歸模型對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子進行回歸分析,確定mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數;(3)利用網格搜索,分別依據所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數確定mRNA閾值、lncRNA閾值和miRNA閾值;(4)分別將所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數與其對應的閾值比較,以確定mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物;(5)混合所述mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物,獲得RNA混合數據,以所述RNA混合數據替代所述轉錄組數據進行步驟(2)?(4),以確定所述腫瘤標記物。...

    【技術特征摘要】
    1.一種基于轉錄組數據確定腫瘤標記物的方法,其特征在于,包括:(1)獲得轉錄組數據,所述轉錄組數據包括多個個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述轉錄組數據包括第一轉錄組數據和第二轉錄組數據,所述第一轉錄組數據包括多個第一個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第二轉錄組數據包括多個第二個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第一個體樣本和所述第二個體樣本分別具有一對相對表型特征中的一個,所述表型特征與所述腫瘤相關;(2)分別建立個體存在所述表型特征與所述個體的mRNA、lncRNA和miRNA表達量的關系的正則化的邏輯回歸模型,分別利用建立的正則化的邏輯回歸模型對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子進行回歸分析,確定mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數;(3)利用網格搜索,分別依據所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數確定mRNA閾值、lncRNA閾值和miRNA閾值;(4)分別將所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數與其對應的閾值比較,以確定mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物;(5)混合所述mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物,獲得RNA混合數據,以所述RNA混合數據替代所述轉錄組數據進行步驟(2)-(4),以確定所述腫瘤標記物。2.權利要求1的方法,其特征在于,所述轉錄組數據為基因芯片數據,所述mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子均為在正常樣本和腫瘤樣本中表達具有顯著性差異的RNA分子。3.權利要求2的方法,其特征在于,步驟(1)包括,對所述轉錄組數據為經過標準化處理的數據,任選的經過分位數標準化處理。4.權利要求1的方法,其特征在于,進行步驟(2)之前,分別對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據進行聚類,獲得N1個mRNA簇、N2個lncRNA簇和N3個miRNA簇,以所述mRNA簇、lncRNA簇和miRNA簇分別替代所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據。5.權利要求4的方法,其特征在于,利用k-means算法進行所述聚類。6.權利要求4的方法,其特征在于,步驟(2)包括,建立邏輯回歸模型,利用組套索算法正則...

    【專利技術屬性】
    技術研發人員:李姣鄭思
    申請(專利權)人:中國醫學科學院醫學信息研究所
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码专区AAAAAA免费视频| 国产成人无码免费视频97| V一区无码内射国产| 免费一区二区无码视频在线播放 | 亚洲精品无码久久久久秋霞| 久久精品日韩av无码| 一本色道久久HEZYO无码| 亚洲国产精品无码久久久秋霞1| 中文字幕精品无码一区二区| 亚洲av无码一区二区三区四区| 国产AV无码专区亚洲AWWW| 特级毛片内射www无码| 亚洲AV无码国产丝袜在线观看| 无码精品人妻一区二区三区免费| 未满小14洗澡无码视频网站| 国产精品va在线观看无码| 无码狠狠躁久久久久久久 | 亚洲精品97久久中文字幕无码| 日日摸日日碰夜夜爽无码| 国产成人无码一区二区在线观看| 日本无码WWW在线视频观看| 无码人妻丰满熟妇精品区| 中文字幕人妻无码一夲道| 无码人妻精品一区二区三区99不卡 | 精品人妻少妇嫩草AV无码专区 | 夜夜添无码一区二区三区| 无码国产精成人午夜视频不卡| 伊人久久精品无码麻豆一区| 色欲A∨无码蜜臀AV免费播| 无码人妻一区二区三区免费n鬼沢 无码人妻一区二区三区免费看 | 日韩免费无码一区二区三区| 东京热无码一区二区三区av| 性色av无码免费一区二区三区| 特级小箩利无码毛片| 国产精品久久无码一区二区三区网 | 2020无码专区人妻系列日韩| 亚洲一区二区无码偷拍| 中文无码字幕中文有码字幕| 亚洲啪AV永久无码精品放毛片| 亚洲最大av资源站无码av网址| JAVA性无码HD中文|