"/>
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>武漢大學專利>正文

    基于Transformer-Encoder和多尺度卷積神經網絡的轉錄因子識別方法技術

    技術編號:36691723 閱讀:26 留言:0更新日期:2023-02-27 19:59
    本發明專利技術公開了基于Transformer

    【技術實現步驟摘要】
    基于Transformer
    ?
    Encoder和多尺度卷積神經網絡的轉錄因子識別方法


    [0001]本專利技術涉及蛋白質功能注釋領域,具體涉及一種基于Transformer
    ?
    Encoder和多尺度卷積神經網絡的轉錄因子識別方法,由于轉錄因子是一類具有特殊功能的蛋白質,所以本專利技術屬于深度學習在蛋白質功能注釋領域的應用。

    技術介紹

    [0002]轉錄因子(Transcription Factor)是一種具有特殊結構、行使調控基因表達功能的蛋白質分子。轉錄因子通過與DNA序列特異性結合,促進或抑制特定DNA到RNA的轉錄過程,從而調節目標基因的表達。
    [0003]傳統上,通過生化實驗來鑒定和識別轉錄因子的方法耗時、成本昂貴,無法大規模使用;采用BLAST的同源搜索方法無法對同數據庫中已知蛋白質均不同源的蛋白質是否為轉錄因子進行鑒定;采用傳統機器學習的預測方法可基于蛋白質結構或序列信息識別其是否為轉錄因子,但需要人工設計和轉錄因子相關的特征,需要較強的領域知識,且預測精度不高;深度學習具有可以直接學習蛋白質序列的特征的優點,但現有方法大多基于卷積神經網絡構建預測模型。由于卷積核的限制,這類方法雖然可以自動學習特征表示,但只能學習距離較近的氨基酸間關系的局部特征,無法學習距離較遠的氨基酸間關系的全局特征,影響了模型的預測精度。

    技術實現思路

    [0004]針對上述技術問題,本專利技術提供了一種基于Transformer
    ?
    Encoder和多尺度卷積神經網絡的轉錄因子識別方法,可以同時提取蛋白質序列中的全局和局部信息,自動獲得關于轉錄因子的全面表示特征,從而進一步提高預測精度。
    [0005]本專利技術提供的技術方案如下:
    [0006]一種基于Transformer
    ?
    Encoder和多尺度卷積神經網絡的轉錄因子識別方法,步驟如下:
    [0007]步驟1:構建訓練集:從蛋白質數據庫中收集蛋白質序列,根據對應的蛋白質注釋信息,將每條蛋白質序列標記為轉錄因子或者非轉錄因子;對所有序列進行預處理,得到訓練數據集;
    [0008]步驟2:搭建網絡結構:搭建Transformer
    ?
    Encoder和多尺度卷積神經網絡相結合的網絡結構構建轉錄因子預測模型;其中Transformer
    ?
    Encoder用于獲得第i條蛋白質序列X
    i
    的全局特征多尺度卷積神經網絡用于基于進行轉錄因子預測識別;
    [0009]步驟3:訓練預測模型:用步驟1得到的訓練集來訓練步驟2搭建的網絡,得到訓練好的轉錄因子預測模型;
    [0010]步驟4:轉錄因子預測:利用步驟3得到的預測模型,預測未知的蛋白質序列是否為轉錄因子,輸出預測結果。
    [0011]進一步,所述步驟1包括以下子步驟:
    [0012]1.1從蛋白質數據庫中挑選不包含非標準氨基酸即B,O,U,Z的蛋白質序列,組成數據集S1;
    [0013]1.2從S1中剔除長度超過1000的序列,僅保留長度小于或等于1000的序列;對長度小于1000的蛋白質序列,用零填充到長度為1000;最后得到蛋白質序列數據集S2;
    [0014]1.3根據蛋白質數據庫中每條蛋白質的GO注釋信息,將S2中的每條蛋白質序列分別賦予轉錄因子“1”或非轉錄因子“0”的標簽;最終得到訓練數據集S=(X
    i
    ,c
    i
    )|i=1,..,N;其中X
    i
    代表數據集中第i條蛋白質序列;c
    i
    為X
    i
    的標簽,c
    i
    ∈{0,1};N為S的大小。
    [0015]進一步,所述步驟1.3中,如果蛋白質的GO注釋中包含“transcription factor”的GO term,或者同時包含“transcription regulation”和“DNA binding”兩個GO terms,則將該蛋白質序列為轉錄因子,并賦值為“1”;否則,該蛋白質序列為非轉錄因子,并賦值為“0”。
    [0016]進一步,所述步驟2中網絡結構包括串聯組成的Transformer
    ?
    Encoder結構和多尺度卷積神經網絡結構;
    [0017]該Transformer
    ?
    Encoder結構僅保留Transformer中的Encoder部分,由6個Encoder塊堆疊而成,每個Encoder塊包含12個attention head;Transformer
    ?
    Encoder用于從輸入的蛋白質序列中提取全局特征;
    [0018]多尺度卷積神經網絡由四個并聯的具有不同一維卷積核的卷積子網絡、兩個全連接層和輸出層組成;卷積層包含多個分別對應不同大小卷積核的一維卷積操作獲得多個不同大小的卷積特征;池化層分別對多個卷積特征進行池化,得到維度降低后的特征;池化后特征經過拼接送入全連接層;全連接層計算后得到的預測結果由輸出層輸出。
    [0019]進一步,所述步驟2中,設一個蛋白質序列為X
    i
    =x
    i1
    ,x
    i2
    ,

    ,x
    ij
    ,

    x
    i1000
    ,x
    ij
    表示蛋白質序列X
    i
    中第j個位置的氨基酸,利用Transformer
    ?
    Encoder得到X
    i
    的全局特征的具體步驟為:
    [0020]2.1通過embedding操作,得到X
    i
    的embedding向量,embedding的具體方法如下:
    [0021]2.1.1首先對不同的氨基酸種類進行隨機初始化,然后按照對應的氨基酸類型將X
    i
    的每個氨基酸x
    ij
    embedding生成相應的向量;
    [0022]2.1.2使用位置編碼提取蛋白質序列中的氨基酸的位置信息,其中位置編碼是通過正弦和余弦函數來識別氨基酸在蛋白質的不同位置,其中第j個氨基酸的位置編碼公式如下所示:
    [0023][0024]其中,pos表示氨基酸在蛋白質序列中的位置,d表示嵌入向量的維度,k為自然數;
    [0025]2.1.3將每個氨基酸x
    ij
    的embedding和對應的位置編碼進行相加,得到蛋白質X
    i
    序列的embedding向量;
    [0026]2.2得到蛋白質序列X
    i
    的embedding向量后,將其作為Transformer
    ?
    Encoder的輸入,利用其attention機制挖掘每兩個氨基酸之間的attention分數,將attention分數與
    embedding向量做叉乘,從而得到整個蛋白質序列X
    i
    的全局特征
    [0027]更進一步,所述步本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于Transformer
    ?
    Encoder和多尺度卷積神經網絡的轉錄因子識別方法,其特征在于,步驟如下:步驟1:構建訓練集:從蛋白質數據庫中收集蛋白質序列,根據對應的蛋白質注釋信息,將每條蛋白質序列標記為轉錄因子或者非轉錄因子;對所有序列進行預處理,得到訓練數據集;步驟2:搭建網絡結構:搭建Transformer
    ?
    Encoder和多尺度卷積神經網絡相結合的網絡結構構建轉錄因子預測模型;其中Transformer
    ?
    Encoder用于獲得第i條蛋白質序列X
    i
    的全局特征多尺度卷積神經網絡用于基于進行轉錄因子預測識別;步驟3:訓練預測模型:用步驟1得到的訓練集來訓練步驟2搭建的網絡,得到訓練好的轉錄因子預測模型;步驟4:轉錄因子預測:利用步驟3得到的預測模型,預測未知的蛋白質序列是否為轉錄因子,輸出預測結果。2.根據權利要求1所述的方法,其特征在于:所述步驟1包括以下子步驟:1.1從蛋白質數據庫中挑選不包含非標準氨基酸即B,O,U,Z的蛋白質序列,組成數據集S1;1.2從S1中剔除長度超過1000的序列,僅保留長度小于或等于1000的序列;對長度小于1000的蛋白質序列,用零填充到長度為1000;最后得到蛋白質序列數據集S2;1.3根據蛋白質數據庫中每條蛋白質的GO注釋信息,分別將S2中的每條蛋白質序列分別賦予轉錄因子“1”或非轉錄因子“0”的標簽;最終得到訓練數據集S=(X
    i
    ,c
    i
    )|i=1,..,N;其中X
    i
    代表數據集中第i條蛋白質序列;c
    i
    為X
    i
    的標簽,c
    i
    ∈{0,1};N為S的大小。3.根據權利要求1所述的方法,其特征在于:所述步驟1.3中,如果蛋白質的GO注釋中包含“transcription factor”的GO term,或者同時包含“transcription regulation”和“DNA binding”兩個GO terms,則將該蛋白質序列為轉錄因子,并賦值為“1”;否則,該蛋白質序列為非轉錄因子,并賦值為“0”。4.根據權利要求1所述的方法,其特征在于:所述步驟2中網絡結構包括串聯組成的Transformer
    ?
    Encoder結構和多尺度卷積神經網絡結構;該Transformer
    ?
    Encoder結構僅保留Transformer中的Encoder部分,由6個Encoder塊堆疊而成,每個Encoder塊包含12個attention head;Transformer
    ?
    Encoder用于從輸入的蛋白質序列中提取全局特征;多尺度卷積神經網絡由四個并聯的具有不同一維卷積核的卷積子網絡、兩個全連接層和輸出層組成;卷積層包含多個分別對應不同大小卷積核的一維卷積操作獲得多個不同大小的卷積特征;池化層分別對多個卷積特征進行池化,得到維度降低后的特征;池化后特征經過拼接送入全連接層;全連接層計算后得到的預測結果由輸出層輸出。5.根據權利要求1所述的方法,其特征在于:所述步驟2中,設一個蛋白質序列為X
    i
    =x
    i1
    ,x
    i2
    ,

    ,x
    ij
    ,
    …<...

    【專利技術屬性】
    技術研發人員:劉娟楊志輝
    申請(專利權)人:武漢大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码三级在线观看视频| 无码人妻熟妇AV又粗又大| 无码人妻精品一区二区三区蜜桃 | 亚洲真人无码永久在线| 无码精品A∨在线观看| 中文午夜人妻无码看片| 国产精品一级毛片无码视频| 日韩精品真人荷官无码| 亚洲午夜无码AV毛片久久| 精品无码日韩一区二区三区不卡| 精品无码久久久久久久久水蜜桃| 一区二区三区人妻无码| 亚洲av无码一区二区三区四区| 一区二区三区无码视频免费福利| 性虎精品无码AV导航| 国产50部艳色禁片无码| 曰韩无码AV片免费播放不卡| 在人线av无码免费高潮喷水| 自拍偷在线精品自拍偷无码专区| 国产丰满乱子伦无码专| 777爽死你无码免费看一二区| 久久青青草原亚洲av无码| 黑人巨大无码中文字幕无码 | 亚洲成av人片不卡无码| 亚洲一区精品无码| 国产成人无码区免费内射一片色欲 | 日韩精品无码一区二区三区不卡| 小12箩利洗澡无码视频网站| 精品亚洲AV无码一区二区三区| 亚洲国产精品无码AAA片| 国产成人无码精品久久久久免费| 狠狠精品干练久久久无码中文字幕 | 波多野结AV衣东京热无码专区| 无码一区二区三区在线| 久久人午夜亚洲精品无码区| WWW久久无码天堂MV| 黑人巨大无码中文字幕无码| 精品久久久久久久无码久中文字幕| 国产精品无码一区二区在线| 国产精品爆乳奶水无码视频| 一级毛片中出无码|