The invention discloses a method for determining tumor markers based on transcriptome data includes: (1) to obtain the transcriptome data, including the first and second transcriptome data, the first and second transcriptome data respectively include first and second individual samples of mRNA, lncRNA and miRNA expression data, distinguish between the first and second individual samples including each has a characteristic of a relative phenotype; (2) were established with individual phenotypic characteristics and three kinds of RNA expression regularization logic relationship of regression model, respectively, using the model of three kinds of RNA expression data regression, obtained three kinds of RNA regression coefficient; (3) using the grid search, according to three kinds of RNA regression coefficients of three kinds of RNA threshold; (4) respectively, three RNA molecules and corresponding regression coefficient threshold comparison, identified three candidate RNA markers; (5) mixing three RNA candidate Markers were obtained from RNA mixed data, using RNA mixed data instead of transcriptome data (2) - (4) to identify tumor markers.
【技術實現步驟摘要】
基于轉錄組數據確定腫瘤標記物的方法
本專利技術涉及生物信息學領域,具體的,本專利技術涉及一種基于轉錄組數據確定腫瘤標記物的方法和一組腫瘤標記物。
技術介紹
每個細胞都有復雜的基因表達調控系統,通過相互協作來行使正常的生物學功能。對于復雜疾病生物系統的研究,需要整合實驗和計算學方法來分析多層面的調控關系數據,進而發現致病機理,促進疾病的診斷和治療。研究發現,一些基因在腫瘤組織中的異常表達,與腫瘤的發生、發展密切相關,進而成為重要的腫瘤標記物。此外,一些非編碼RNA(比如microRNA、lncRNA等)在生命活動中也具有重要的調控功能,介導參與腫瘤的發生發展等生理病理過程。高通量組學技術的發展使我們能夠從DNA、RNA、DAN蛋白等分子水平去探索生命活動的調節機制,發現跟腫瘤的診斷與治療相關的分子標志物。目前,基于腫瘤的基因表達數據的研究,發現了很多跟腫瘤的發生發展相關的異常表達因子,其中差異分析,生存分析,聚類分析等是常用的分析方法。而隨著芯片技術的發展,microRNA、lncRNA等非編碼RNA的表達數據逐漸獲得,并用于腫瘤分子標記物尋找的研究當中。但是,多數的研究都是基于單一類型的轉錄組表達數據進行分析,尋找到潛在的分子標記物,用于腫瘤的預后預測等。而對于少數的整合分析的研究,也僅限于對不同類型的RNA分子的表達數據進行相關性分析,預測RNA分子之間潛在的調控關系。現有的這種基于單一類型的分子標記物進行腫瘤預后風險預測的方法存在一定的局限性,因為腫瘤具有較強的異質性,內部的調控系統是非常復雜的,不同類型的分子在不同層面起調控作用,基于單一類型的組學數 ...
【技術保護點】
一種基于轉錄組數據確定腫瘤標記物的方法,其特征在于,包括:(1)獲得轉錄組數據,所述轉錄組數據包括多個個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述轉錄組數據包括第一轉錄組數據和第二轉錄組數據,所述第一轉錄組數據包括多個第一個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第二轉錄組數據包括多個第二個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第一個體樣本和所述第二個體樣本分別具有一對相對表型特征中的一個,所述表型特征與所述腫瘤相關;(2)分別建立個體存在所述表型特征與所述個體的mRNA、lncRNA和miRNA表達量的關系的正則化的邏輯回歸模型,分別利用建立的正則化的邏輯回歸模型對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子進行回歸分析,確定mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數;(3)利用網格搜索,分別依據所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數確定mRNA閾值、lncRNA閾值和miRNA閾 ...
【技術特征摘要】
1.一種基于轉錄組數據確定腫瘤標記物的方法,其特征在于,包括:(1)獲得轉錄組數據,所述轉錄組數據包括多個個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述轉錄組數據包括第一轉錄組數據和第二轉錄組數據,所述第一轉錄組數據包括多個第一個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第二轉錄組數據包括多個第二個體樣本的mRNA表達數據、lncRNA表達數據和miRNA表達數據,所述第一個體樣本和所述第二個體樣本分別具有一對相對表型特征中的一個,所述表型特征與所述腫瘤相關;(2)分別建立個體存在所述表型特征與所述個體的mRNA、lncRNA和miRNA表達量的關系的正則化的邏輯回歸模型,分別利用建立的正則化的邏輯回歸模型對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子進行回歸分析,確定mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數;(3)利用網格搜索,分別依據所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數確定mRNA閾值、lncRNA閾值和miRNA閾值;(4)分別將所述mRNA分子回歸系數、lncRNA分子回歸系數和miRNA分子回歸系數與其對應的閾值比較,以確定mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物;(5)混合所述mRNA候選標記物、lncRNA候選標記物和miRNA候選標記物,獲得RNA混合數據,以所述RNA混合數據替代所述轉錄組數據進行步驟(2)-(4),以確定所述腫瘤標記物。2.權利要求1的方法,其特征在于,所述轉錄組數據為基因芯片數據,所述mRNA表達數據、lncRNA表達數據和miRNA表達數據中的RNA分子均為在正常樣本和腫瘤樣本中表達具有顯著性差異的RNA分子。3.權利要求2的方法,其特征在于,步驟(1)包括,對所述轉錄組數據為經過標準化處理的數據,任選的經過分位數標準化處理。4.權利要求1的方法,其特征在于,進行步驟(2)之前,分別對所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據進行聚類,獲得N1個mRNA簇、N2個lncRNA簇和N3個miRNA簇,以所述mRNA簇、lncRNA簇和miRNA簇分別替代所述轉錄組數據中的mRNA表達數據、lncRNA表達數據和miRNA表達數據。5.權利要求4的方法,其特征在于,利用k-means算法進行所述聚類。6.權利要求4的方法,其特征在于,步驟(2)包括,建立邏輯回歸模型,利用組套索算法正則...
【專利技術屬性】
技術研發人員:李姣,鄭思,
申請(專利權)人:中國醫學科學院醫學信息研究所,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。