"/>
【技術實現步驟摘要】
基于Transformer
?
Encoder和多尺度卷積神經網絡的轉錄因子識別方法
[0001]本專利技術涉及蛋白質功能注釋領域,具體涉及一種基于Transformer
?
Encoder和多尺度卷積神經網絡的轉錄因子識別方法,由于轉錄因子是一類具有特殊功能的蛋白質,所以本專利技術屬于深度學習在蛋白質功能注釋領域的應用。
技術介紹
[0002]轉錄因子(Transcription Factor)是一種具有特殊結構、行使調控基因表達功能的蛋白質分子。轉錄因子通過與DNA序列特異性結合,促進或抑制特定DNA到RNA的轉錄過程,從而調節目標基因的表達。
[0003]傳統上,通過生化實驗來鑒定和識別轉錄因子的方法耗時、成本昂貴,無法大規模使用;采用BLAST的同源搜索方法無法對同數據庫中已知蛋白質均不同源的蛋白質是否為轉錄因子進行鑒定;采用傳統機器學習的預測方法可基于蛋白質結構或序列信息識別其是否為轉錄因子,但需要人工設計和轉錄因子相關的特征,需要較強的領域知識,且預測精度不高;深度學習具有可以直接學習蛋白質序列的特征的優點,但現有方法大多基于卷積神經網絡構建預測模型。由于卷積核的限制,這類方法雖然可以自動學習特征表示,但只能學習距離較近的氨基酸間關系的局部特征,無法學習距離較遠的氨基酸間關系的全局特征,影響了模型的預測精度。
技術實現思路
[0004]針對上述技術問題,本專利技術提供了一種基于Transformer
?
Encoder和多尺度卷積神經 ...
【技術保護點】
【技術特征摘要】
1.一種基于Transformer
?
Encoder和多尺度卷積神經網絡的轉錄因子識別方法,其特征在于,步驟如下:步驟1:構建訓練集:從蛋白質數據庫中收集蛋白質序列,根據對應的蛋白質注釋信息,將每條蛋白質序列標記為轉錄因子或者非轉錄因子;對所有序列進行預處理,得到訓練數據集;步驟2:搭建網絡結構:搭建Transformer
?
Encoder和多尺度卷積神經網絡相結合的網絡結構構建轉錄因子預測模型;其中Transformer
?
Encoder用于獲得第i條蛋白質序列X
i
的全局特征多尺度卷積神經網絡用于基于進行轉錄因子預測識別;步驟3:訓練預測模型:用步驟1得到的訓練集來訓練步驟2搭建的網絡,得到訓練好的轉錄因子預測模型;步驟4:轉錄因子預測:利用步驟3得到的預測模型,預測未知的蛋白質序列是否為轉錄因子,輸出預測結果。2.根據權利要求1所述的方法,其特征在于:所述步驟1包括以下子步驟:1.1從蛋白質數據庫中挑選不包含非標準氨基酸即B,O,U,Z的蛋白質序列,組成數據集S1;1.2從S1中剔除長度超過1000的序列,僅保留長度小于或等于1000的序列;對長度小于1000的蛋白質序列,用零填充到長度為1000;最后得到蛋白質序列數據集S2;1.3根據蛋白質數據庫中每條蛋白質的GO注釋信息,分別將S2中的每條蛋白質序列分別賦予轉錄因子“1”或非轉錄因子“0”的標簽;最終得到訓練數據集S=(X
i
,c
i
)|i=1,..,N;其中X
i
代表數據集中第i條蛋白質序列;c
i
為X
i
的標簽,c
i
∈{0,1};N為S的大小。3.根據權利要求1所述的方法,其特征在于:所述步驟1.3中,如果蛋白質的GO注釋中包含“transcription factor”的GO term,或者同時包含“transcription regulation”和“DNA binding”兩個GO terms,則將該蛋白質序列為轉錄因子,并賦值為“1”;否則,該蛋白質序列為非轉錄因子,并賦值為“0”。4.根據權利要求1所述的方法,其特征在于:所述步驟2中網絡結構包括串聯組成的Transformer
?
Encoder結構和多尺度卷積神經網絡結構;該Transformer
?
Encoder結構僅保留Transformer中的Encoder部分,由6個Encoder塊堆疊而成,每個Encoder塊包含12個attention head;Transformer
?
Encoder用于從輸入的蛋白質序列中提取全局特征;多尺度卷積神經網絡由四個并聯的具有不同一維卷積核的卷積子網絡、兩個全連接層和輸出層組成;卷積層包含多個分別對應不同大小卷積核的一維卷積操作獲得多個不同大小的卷積特征;池化層分別對多個卷積特征進行池化,得到維度降低后的特征;池化后特征經過拼接送入全連接層;全連接層計算后得到的預測結果由輸出層輸出。5.根據權利要求1所述的方法,其特征在于:所述步驟2中,設一個蛋白質序列為X
i
=x
i1
,x
i2
,
…
,x
ij
,
…<...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。