• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法技術(shù)

    技術(shù)編號(hào):15691281 閱讀:183 留言:0更新日期:2017-06-24 04:21
    本發(fā)明專利技術(shù)公開(kāi)了基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別系統(tǒng)用于藥物先導(dǎo)化合物發(fā)現(xiàn)的新方法,以解決當(dāng)前先導(dǎo)化合物虛擬篩選效率低、準(zhǔn)確度不高的問(wèn)題。該方法首先將化合物結(jié)構(gòu)式轉(zhuǎn)為平面圖片,并進(jìn)行黑白化與反色處理,所有圖片根據(jù)化合物的活性屬性分類并根據(jù)類別分別加以數(shù)字標(biāo)簽,輸入系統(tǒng)。選取一部分圖片作為訓(xùn)練集供卷積神經(jīng)網(wǎng)絡(luò)對(duì)分類問(wèn)題進(jìn)行深度學(xué)習(xí),剩余部分作為測(cè)試集以評(píng)價(jià)模型。學(xué)習(xí)完成后,輸入訓(xùn)練集及測(cè)試集以外的經(jīng)同樣處理的圖片供系統(tǒng)計(jì)算,預(yù)測(cè)其對(duì)應(yīng)的活性屬性的概率。

    Intelligent lead compound discovery method based on convolution neural network

    The invention discloses an image recognition system based on a convolution neural network, which is a new method for discovering a drug lead compound, so as to solve the problems of low efficiency and low accuracy of the current leader compound virtual screening. Firstly, a compound of the formula to graphic images, and the black and white and color processing, all images according to the active compounds and attribute classification according to category to digital label input system. Some pictures are selected as training sets for convolutional neural networks, and depth learning is performed on the classification problem. The remaining part is used as a test set to evaluate the model. After the completion of the study, the same set of pictures other than the training set and the test set are input into the system to predict the probability of the corresponding active attributes.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法
    本專利技術(shù)涉及先導(dǎo)化合物發(fā)現(xiàn)的方法,屬于以先導(dǎo)化合物發(fā)現(xiàn)為目標(biāo)的人工智能應(yīng)用
    ,目的是高效、智能地發(fā)現(xiàn)小分子先導(dǎo)化合物。
    技術(shù)介紹
    基于相似性的活性化合物發(fā)現(xiàn)策略在藥物設(shè)計(jì)中具有重要的地位,包括了生物電子等排體策略、骨架躍遷策略等等,但這兩種方法均在很大程度上依賴于藥物研發(fā)人員長(zhǎng)期積累的經(jīng)驗(yàn)。而人工智能通過(guò)深度學(xué)習(xí),能快速、準(zhǔn)確地總結(jié)出規(guī)律,這一過(guò)程得以加快藥物的發(fā)現(xiàn)過(guò)程。尤其是借助計(jì)算機(jī)的高速運(yùn)算及大存儲(chǔ)量這兩個(gè)人類不具有的優(yōu)勢(shì),人工智能得以快速、準(zhǔn)確地識(shí)別活性分子,找出活性與結(jié)構(gòu)之間的關(guān)系。活性分子相似性的發(fā)現(xiàn),需要借助圖像識(shí)別這一技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)則是實(shí)現(xiàn)智能讀圖的重要技術(shù)之一。通過(guò)建立卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并提供已知特性的圖像供該網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練。擬合出對(duì)應(yīng)于該特性的系列參數(shù),最終達(dá)到該網(wǎng)絡(luò)能準(zhǔn)確分類該特性的目的。目前,我國(guó)的新藥開(kāi)發(fā)正在朝著全新的創(chuàng)新藥物方向發(fā)展,而新藥開(kāi)發(fā)過(guò)程中先導(dǎo)化合物的發(fā)現(xiàn)是關(guān)鍵的一步,雖然先導(dǎo)化合物并非藥物,卻是藥物之母。面對(duì)著難以計(jì)數(shù)的全新化學(xué)實(shí)體,如果一一進(jìn)行活性測(cè)試將花費(fèi)極其巨大的人力物力及財(cái)力。因此,借助于人工智能卷積神經(jīng)網(wǎng)絡(luò)將加快藥物先導(dǎo)化合物的發(fā)現(xiàn),是新藥研發(fā)的有效輔助手段。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的是提供一種基于化合物化學(xué)結(jié)構(gòu)式的智能識(shí)別系統(tǒng),一種活性先導(dǎo)化合物發(fā)現(xiàn)方法。用于解決當(dāng)前先導(dǎo)化合物發(fā)現(xiàn)效率低、方法有限的問(wèn)題。該方法通過(guò)卷積神經(jīng)網(wǎng)絡(luò),對(duì)具有各類不同活性屬性的化合物結(jié)構(gòu)式圖像的學(xué)習(xí),擬合出準(zhǔn)確分類的矩陣參數(shù),并將參數(shù)用于未知活性屬性的化合物的預(yù)測(cè)。本專利技術(shù)可提高先導(dǎo)化合物發(fā)現(xiàn)效率,為先導(dǎo)化合物發(fā)現(xiàn)帶來(lái)一種全新的方法。為解決上述傳統(tǒng)藥物發(fā)現(xiàn)方法的相關(guān)問(wèn)題,本專利技術(shù)提出的技術(shù)方案為一種基于卷積神經(jīng)網(wǎng)絡(luò)的智能先導(dǎo)化合物發(fā)現(xiàn)方法,具體包括如下步驟:步驟1:對(duì)大小、亮度均一致的化合物結(jié)構(gòu)式平面圖片進(jìn)行黑白化及反色處理;步驟2:根據(jù)化合物活性屬性進(jìn)行分類,并對(duì)每一類圖片加以各類所對(duì)應(yīng)的數(shù)字標(biāo)簽,其中一部分圖片作為訓(xùn)練集,剩余部分圖片作為測(cè)試集;步驟3:將圖片根據(jù)像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣,與標(biāo)簽數(shù)字一一對(duì)應(yīng);步驟4:建立卷積神經(jīng)網(wǎng)絡(luò)分類器,并調(diào)整參數(shù);步驟5:當(dāng)評(píng)價(jià)模型的損失函數(shù)逼近0后,完成訓(xùn)練,獲得訓(xùn)練后的矩陣參數(shù);步驟6:以步驟5獲得的矩陣計(jì)算測(cè)試集圖片,并對(duì)模型進(jìn)行評(píng)估。若評(píng)估結(jié)果不合要求,擴(kuò)充數(shù)據(jù)集,重復(fù)上述過(guò)程,至符合要求;步驟7:若評(píng)估結(jié)果符合要求,步驟5所獲得的矩陣參數(shù)可對(duì)未知活性的化合物進(jìn)行預(yù)測(cè),以發(fā)現(xiàn)先導(dǎo)化合物。進(jìn)一步,上述步驟2中所述活性屬性包括定性的活性屬性以及定量的活性屬性。進(jìn)一步,上述步驟4中所述卷積神經(jīng)網(wǎng)絡(luò)的分類器包含以下步驟:(1)整理數(shù)據(jù)集。(2)建立卷積神經(jīng)網(wǎng)絡(luò),具體又包含以下子步驟:A.確定層數(shù)及結(jié)構(gòu);B.確定卷積與池化方式;C.選擇損失函數(shù);D.選擇非線性化函數(shù)。(3)開(kāi)始訓(xùn)練神經(jīng)網(wǎng)絡(luò),具體又包含以下子步驟:A.初始化矩陣數(shù)據(jù);B.設(shè)置每批訓(xùn)練圖片的數(shù)量;C.設(shè)置訓(xùn)練次數(shù)。進(jìn)一步,上述步驟4中參數(shù)包括以下內(nèi)容:(1)層數(shù)及節(jié)點(diǎn)數(shù);(2)卷積核大小與采樣方式;(3)池化層矩陣大小與采樣方式;(4)損失函數(shù)種類;(5)非線性化函數(shù)種類;(6)每批訓(xùn)練圖片的數(shù)量;(7)訓(xùn)練次數(shù)。進(jìn)一步,上述步驟5中所述的逼近為損失函數(shù)值小于1同時(shí)大于0。進(jìn)一步,上述步驟6中評(píng)估方法包括計(jì)算模型預(yù)測(cè)全部圖片以及各類別圖片的正確率、錯(cuò)誤率,模型針對(duì)某分類屬性的特異性以及靈敏度。與傳統(tǒng)的先導(dǎo)化合物虛擬發(fā)現(xiàn)工具相比,本專利技術(shù)的突出效果在于:1、受體的結(jié)構(gòu)、受體與配體或藥物的結(jié)合位點(diǎn)、活性分子的藥效構(gòu)象不再是必要的,更不需要理論計(jì)算化學(xué)嚴(yán)格、精確的算法;2、預(yù)測(cè)速度明顯快于傳統(tǒng)的先導(dǎo)化合物篩選工具;3、傳統(tǒng)篩選模型多為線性模型,本篩選方法為非線性模型。附圖說(shuō)明圖1是本專利技術(shù)的方法流程圖。圖2是卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。圖3是依照本專利技術(shù)創(chuàng)建的模型的收斂情況。具體實(shí)施方式現(xiàn)結(jié)合附圖對(duì)本專利技術(shù)的具體實(shí)施方式做進(jìn)一步詳細(xì)的說(shuō)明。本專利技術(shù)提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法。首先通過(guò)建立初步的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)訓(xùn)練集中經(jīng)處理的圖片進(jìn)行深度學(xué)習(xí),根據(jù)訓(xùn)練情況調(diào)整結(jié)構(gòu)中參數(shù),訓(xùn)練完成后保存矩陣數(shù)據(jù)。以此矩陣數(shù)據(jù)計(jì)算測(cè)試集,評(píng)價(jià)模型的正確率,結(jié)果符合要求后,將矩陣數(shù)據(jù)用于未知化合物的活性預(yù)測(cè)。若不合要求則通過(guò)擴(kuò)大數(shù)據(jù)集重復(fù)上述過(guò)程,見(jiàn)圖1。方法流程:基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法的細(xì)化步驟如下:以具有抗腫瘤作用的CDK4抑制劑作為本方法的實(shí)施例,數(shù)據(jù)集中分子圖片具有兩類屬性,一類具有CDK4抑制活性,另一類則不具有。步驟1:將具有抗腫瘤活性的241個(gè)CDK4抑制劑作為活性化合物,223個(gè)不具有抗腫瘤活性的化合物作為非活性化合物。其結(jié)構(gòu)式制做為128×128像素圖片,并進(jìn)行黑白化和反色處理。步驟2:對(duì)所有圖片分類并加以類別數(shù)字標(biāo)簽,具有CDK4抑制活性的化合物圖片以1為標(biāo)簽,不具有CDK4抑制作用的化合物圖片以0作為標(biāo)簽。所有圖片隨機(jī)分為訓(xùn)練集與測(cè)試集。訓(xùn)練集與測(cè)試集各含圖片232張,其中訓(xùn)練集有118張圖片屬于活性化合物。步驟3:將圖片由像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣,并與將活性標(biāo)簽一一對(duì)應(yīng)。步驟4:如圖2所示,建立并調(diào)整卷積神經(jīng)網(wǎng)絡(luò)分類器,包括如下步驟:1、數(shù)據(jù)集的準(zhǔn)備:圖片矩陣經(jīng)整合后為一464×1282的矩陣,第一維為圖片索引,第二維為具體的圖片像素值數(shù)據(jù)。標(biāo)簽矩陣為464×1的矩陣,第一維為索引,第二維為數(shù)字標(biāo)簽。最后將圖片矩陣重整為464×128×128×1。2、建立卷積神經(jīng)網(wǎng)絡(luò),具體包含以下子步驟:A.確定層數(shù)及結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)整體架構(gòu),以一層卷積層加一層池化層為一組,共三組,后為一層全連接層,最后通過(guò)一個(gè)含有2個(gè)輸出節(jié)點(diǎn)的softmax層輸出。詳細(xì)如下:a.卷積層及池化層:第一層卷積層具有1個(gè)輸入節(jié)點(diǎn)、30個(gè)輸出節(jié)點(diǎn),第二層卷積層含30個(gè)輸入節(jié)點(diǎn)、60個(gè)輸出節(jié)點(diǎn),第三層卷積層含60個(gè)輸入節(jié)點(diǎn)、120個(gè)輸出節(jié)點(diǎn)。其中,每一層卷積層在經(jīng)非線性化函數(shù)處理后均連有池化層,而最后一層池化層的輸出作為下一層的輸入。非線性化采用relu函數(shù)進(jìn)行處理,relu(x)=max(0,x)。經(jīng)上述處理后,數(shù)據(jù)具有三個(gè)維度。三維數(shù)據(jù)需要被重構(gòu)后輸入全連接層。b.數(shù)據(jù)重構(gòu):由于全連接層對(duì)應(yīng)于線性化的輸入數(shù)據(jù),故須將輸入的三維矩陣進(jìn)行重構(gòu)。重構(gòu)的矩陣為n行一列的二維矩陣,n值為經(jīng)卷積層與池化層處理后,三維矩陣的各維大小的乘積。重構(gòu)矩陣的每一行作為全連接層的每一輸入節(jié)點(diǎn)。c.全連接層:全連接層為一層,其輸入節(jié)點(diǎn)數(shù)即為重構(gòu)二維矩陣的行數(shù),輸出節(jié)點(diǎn)有200個(gè),經(jīng)relu函數(shù)進(jìn)行非線性化處理后作為softmax層的輸入節(jié)點(diǎn)。d.softmax層:softmax層的輸出個(gè)數(shù)為2,對(duì)應(yīng)于標(biāo)簽0及1的概率分布。即最后的softmax層采用softmax函數(shù)將輸出結(jié)果分為兩類標(biāo)簽的概率值,是一個(gè)二行一列的矩陣。Xi為某一標(biāo)簽對(duì)應(yīng)的計(jì)算值,Xj為任一標(biāo)簽的計(jì)算值。獲取最大概率值在矩陣行數(shù)中的索引,即為圖片經(jīng)模型預(yù)測(cè)后得到的分類標(biāo)簽。預(yù)測(cè)的標(biāo)簽與真實(shí)結(jié)果比較后,計(jì)算損失函數(shù)用于模型評(píng)價(jià)。B.確定卷積與池化方式:采用5×5的卷積核,移動(dòng)步長(zhǎng)為1,采用拓展至圖本文檔來(lái)自技高網(wǎng)...
    基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法

    【技術(shù)保護(hù)點(diǎn)】
    基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法,其特征在于,該方法包括如下步驟:步驟1:對(duì)大小、亮度均一致的化合物結(jié)構(gòu)式的平面圖片進(jìn)行黑白化與反色處理;步驟2:根據(jù)化合物活性屬性對(duì)圖片進(jìn)行分類,并對(duì)每一類圖片加以各類所對(duì)應(yīng)的數(shù)字標(biāo)簽,其中一部分圖片作為訓(xùn)練集,剩余部分圖片作為測(cè)試集;步驟3:將圖片根據(jù)像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣,與標(biāo)簽數(shù)字一一對(duì)應(yīng);步驟4:建立卷積神經(jīng)網(wǎng)絡(luò)分類器,并調(diào)整參數(shù);步驟5:當(dāng)評(píng)價(jià)模型的損失函數(shù)值逼近0后,完成訓(xùn)練,獲得訓(xùn)練后的矩陣參數(shù);步驟6:以獲得的矩陣計(jì)算測(cè)試集圖片最為可能的活性屬性,并通過(guò)與其真實(shí)屬性比較對(duì)模型進(jìn)行評(píng)估,若評(píng)估結(jié)果不合要求,擴(kuò)充數(shù)據(jù)集大小,重復(fù)上述過(guò)程;步驟7:若評(píng)估結(jié)果符合要求,依前法對(duì)待預(yù)測(cè)化合物結(jié)構(gòu)式圖片進(jìn)行預(yù)處理,將圖片以保存的矩陣運(yùn)算后輸出其屬于各活性類別的可能性。

    【技術(shù)特征摘要】
    1.基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法,其特征在于,該方法包括如下步驟:步驟1:對(duì)大小、亮度均一致的化合物結(jié)構(gòu)式的平面圖片進(jìn)行黑白化與反色處理;步驟2:根據(jù)化合物活性屬性對(duì)圖片進(jìn)行分類,并對(duì)每一類圖片加以各類所對(duì)應(yīng)的數(shù)字標(biāo)簽,其中一部分圖片作為訓(xùn)練集,剩余部分圖片作為測(cè)試集;步驟3:將圖片根據(jù)像素值轉(zhuǎn)變?yōu)閿?shù)字矩陣,與標(biāo)簽數(shù)字一一對(duì)應(yīng);步驟4:建立卷積神經(jīng)網(wǎng)絡(luò)分類器,并調(diào)整參數(shù);步驟5:當(dāng)評(píng)價(jià)模型的損失函數(shù)值逼近0后,完成訓(xùn)練,獲得訓(xùn)練后的矩陣參數(shù);步驟6:以獲得的矩陣計(jì)算測(cè)試集圖片最為可能的活性屬性,并通過(guò)與其真實(shí)屬性比較對(duì)模型進(jìn)行評(píng)估,若評(píng)估結(jié)果不合要求,擴(kuò)充數(shù)據(jù)集大小,重復(fù)上述過(guò)程;步驟7:若評(píng)估結(jié)果符合要求,依前法對(duì)待預(yù)測(cè)化合物結(jié)構(gòu)式圖片進(jìn)行預(yù)處理,將圖片以保存的矩陣運(yùn)算后輸出其屬于各活性類別的可能性。2.根據(jù)權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法,其特征在于:步驟1、2、3、6、7中所述圖片的準(zhǔn)備方法是指將分子化學(xué)結(jié)構(gòu)式轉(zhuǎn)變?yōu)槠矫鎴D片。3.根據(jù)權(quán)利要求1所述的基于卷積神經(jīng)網(wǎng)絡(luò)的智能化先導(dǎo)化合物發(fā)現(xiàn)方法,其特征在于:步驟2中所述活性屬性包括定性的活性屬...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:林克江徐吟秋
    申請(qǐng)(專利權(quán))人:中國(guó)藥科大學(xué)
    類型:發(fā)明
    國(guó)別省市:江蘇,32

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产精品成人精品无码区在线 | 无码A级毛片免费视频内谢| 无码中文av有码中文av| 亚洲成无码人在线观看| 无码人妻av一区二区三区蜜臀| 亚洲中文字幕无码久久2017| 久久精品无码中文字幕| 亚洲AV无码国产丝袜在线观看| 在线观看无码不卡AV| 亚洲午夜国产精品无码| 无码人妻精品一区二区三区久久久| 久久久久成人精品无码| 最新亚洲人成无码网www电影| 秋霞无码一区二区| 国内精品人妻无码久久久影院导航| 亚洲av午夜精品无码专区 | 亚洲av无码专区在线| 八戒理论片午影院无码爱恋| 免费A级毛片无码A∨男男| 亚洲熟妇无码八V在线播放| 亚洲AV无码1区2区久久| 亚洲国产AV无码专区亚洲AV| 日韩精品无码Av一区二区| 精品亚洲av无码一区二区柚蜜| 亚洲VA成无码人在线观看天堂| 亚洲一级特黄大片无码毛片| 国产做无码视频在线观看| 久久精品无码一区二区三区不卡| 91精品久久久久久无码| 精品无码人妻一区二区三区品| 国产aⅴ无码专区亚洲av| 亚洲日韩精品无码专区网址| 亚洲中文字幕无码不卡电影| 国产成人无码一区二区三区在线| 亚洲日韩VA无码中文字幕| 亚洲成a人在线看天堂无码| 人妻丰满熟妇AV无码区HD| 亚洲中文字幕不卡无码| 亚洲精品无码不卡| 中日韩亚洲人成无码网站| 永久免费AV无码国产网站|