本發明專利技術公開了一種酚對發光菌毒性預測及評估的新型非線性高效模型的構建方法及應用,利用非線性SVR技術對源自現有技術的18個酚類化合物對發光菌的毒性表示為log?EC50進行QSAR研究。這項工作的目的是基于低維特征數據和高維特征數據,通過非線性化學計量學工具尋找更合理的特征和更可靠的QSAR模型,并詳細分析與毒性相關的最有價值模型及其最關鍵的分子特征。本發明專利技術將為設計對發光菌毒性增強或減弱的酚類似物提供有效的理論參考。
【技術實現步驟摘要】
酚對發光菌毒性預測及評估的非線性高效模型構建方法及應用
本專利技術屬于化學
,涉及一種酚對發光菌毒性預測及評估的非線性高效模型的構建方法及應用。
技術介紹
隨著經濟的飛速發展,與化學品相關的環境問題日益突出。因此,有關有機污染物的毒性風險評估顯得非常重要.苯酚是一種最常見的環境污染物,特別是在廢水中。由于在環境中的毒性和持久性,苯酚被視為優先關注的環境污染物。明亮發光細菌(Photobacteriumphosphoreum)是一種海水中的發光細菌,其光強隨有毒物質抑制細菌生長(即細胞密度)而變化,使其成為化學品毒性測量和水質監測的重要指標。定量構效關系(QSAR)建模是一種用于研究苯酚分子結構與毒性關系的有效方法,它有助于解釋結構特征如何決定毒性。尤其在化學品的毒性評估中,一個好的QSAR模型相對于實驗測試具有更快速、更低成本比的巨大優勢。近日報道了一項研究18個酚類似物與毒性(表現為作用于發光菌的EC50)定量構效關系模型,該模型具有3個特征,分別由軟件ChemDrawUltra(版本11.0)、半經驗量子化學方法AM1哈密爾頓和EPISuite(版本4.0,US-EPA)計算而來,其獨立預測能力較低此外,因為模型在特征選擇和建模方法采用逐步線性回歸(SLR)上有明顯缺陷。由于化學毒性和相關特征之間的關系通常是非線性的,構建線性模型從而顯得不合邏輯。所以目前的酚類似物毒性QSAR研究仍面臨諸多不解。因此,基于高維特征數據、非線性特征篩選和非線性建模的模型一定會為設計新的化學品提供更有用信息。考慮到特征矩陣的高維性,如果從中非線性選擇最有用的子集特征用于建模變得越來越重要。為選擇更合理的QSAR回歸特征,我們采用兩類基于支持向量回歸(SVR)自行開發的方法:多輪末尾汰選(WDEM)和高維特征快速非線性汰選(HDSN)方法。為構建可靠的QSAR模型,我們采用非線性是SVR方法。SVR是一類基于結構風險最小化原則的機器學習方法,它能克服小樣本問題、過擬合、維數災和局部極小的難題,廣泛應用于非線性建模的QASR研究中。
技術實現思路
為了解決上述技術問題,本專利技術提供一種酚對發光菌毒性預測及評估的非線性高效模型的構建方法及應用,利用非線性SVR技術對源自現有技術的18個酚類化合物對發光菌的毒性(表示為logEC50)進行QSAR研究。這項工作的目的是基于低維特征數據和高維特征數據,通過非線性化學計量學工具尋找更合理的特征和更可靠的QSAR模型,并詳細分析與毒性相關的最有價值模型及其最關鍵的分子特征。本專利技術將為設計對發光菌毒性增強或減弱的酚類似物提供有效的理論參考。具體技術方案為:一種酚對發光菌毒性預測及評估的非線性高效模型的構建方法,1)構建信息全面的數據集:包括因變量[LogEC50(expt.)]、高維自變量、低維自變量(logKow、μ和q-)、高維自變量通過PCLIENT軟件計算而來;2)特征的非線性篩選:高維數據利用高維特征快速非線性汰選HDSN方法篩選特征,將高維數據變成低維數據,低維數據進一步利用多輪末尾汰選WDEM方法篩選特征,最后保留的特征用來建模;3)非線性模型的構建和評估:基于包含關鍵特征的低維數據集和非線性的SVR方法,構建出20個高預測精度的非線性評估模型,SVR2模型(MSE=0.005;特征數目=10)最優,由于SVR缺乏解釋性,我們基于實驗室自主開發的SVR解釋性體系,對最優的SVR2模型進行了一系列分析,結果顯示SVR2模型具有顯著的非線性(F-測驗=65.963;p=5.363E-04),該模型中的10個特征及其效應如下:PJI2(差異顯著)、MATS3v(差異顯著)、H1p(差異顯著)、Mor02v(差異顯著)、Mor14p(差異顯著)、Mor02u(差異顯著)、RDF040v(差異顯著)、Mor23v(差異顯著)、BELv3(差異不明顯)和MATS1m(差異顯著)。本專利技術所述酚對發光菌毒性預測及評估的非線性高效模型在預測未知化合物的毒性中的應用。我們根據實驗化合物的取代基規律虛擬了13個酚類似物。根據前面的介紹進行特征提取和活性預測,演示了整個模型推廣應用的流程。本專利技術的有益效果:本專利技術所述技術方案預測精度均優于現有模型精度,其中推廣能力最好的模型SVR1(高維特征刪選后的數據+優化SVR)比現有模型(現有技術數據+SLR)在MSE指標上降低了97.107%、在指標上提升了102.925%,甚至比改進的現有模型(現有技術數據+優化SVR)也在MSE指標上降低了95.315%、在指標上提升了44.365%;即使推廣能力最差的模型SVR20(高維特征刪選后的數據+優化SVR)比現有模型(現有技術數據+SLR)在MSE指標上降低了43.219%、在指標上提升了45.818%,甚至比改進的現有模型(現有技術數據+優化SVR)也在MSE指標上降低了8.053%、在指標上提升了3.737%。附圖說明圖1為基于現有技術數據的QSAR模型在內部(a)和外部(b)預測能力的比較;圖2為SVR2模型描述符的單因子效應。具體實施方式下面結合附圖和具體實施方式對本專利技術的方法作進一步詳細地說明。材料和方法數據集根據現有技術報道的18個實驗測定的酚類的取代基類型,我們設計了13個虛擬的酚類用于評估。18個實驗酚類和13個虛擬酚類列于表1。細菌暴露于被測試的酚(在3%NaCl溶液中)15分鐘,由MICROTOX測試儀測定其毒性值。計算EC50值并轉換為對數EC50(logEC50,molL-1)用于QSAR研究。收集的18個logEC50實驗值[LogEC50(expt.)]介于2.220到5.870之間。為了獲得統計學魯棒的QSAR模型,并比較與SLR和SVR的結果,按現有技術中80:20的比率將表1中的18個實驗酚類分成訓練集(15個化合物)和測試集(3個化合物)。訓練集用來構建QSAR模型并驗證其內部預測能力,測試集用來驗證其外部預測能力。基于構建的QSAR模型,虛擬酚類用于評估理論設計的有效毒性[LogEC50(pred.)]。表118個實驗酚類和13個虛擬酚類化合物毒性a測試集.b通過SVR2模型得到的預測毒性.分子描述符低維現有技術數據:為了比較非線性SVR技術在18個酚類的QSAR低維描述符建模上的預測能力,3個現有技術描述符[辛醇/水分配系數的對數(logKow),偶極矩(μ)和最負原子電荷(q-)]用于發展模型。低維描述符數的計算涉及以下步驟:用ChemDrawUltra(版本11.0)構建酚類結構,然后使用MOPAC軟件(版本6.0)中的半經驗量子化學方法AM1哈密頓優化分子結構,產生能量最小化的構象,得到14個常用的理化描述符(包括1個疏水性的,9個電子的,2個熱力學的和兩個空間性能的描述符)。采用SLR分析找出對化學品毒性而言最重要的描述符。高維現有技術數據:為了利用更有效的結構信息來開發出更好的QSAR模型,31個酚類化合物的高維描述符通過PCLIENT軟件(http://www.vcclab.org/lab/pclient/)計算,并分成24組。該軟件能免費并快速地為每一個提交的化合物計算約3000個描述符。高維描述符的計算過程包括以下步驟:使用JME編輯器繪本文檔來自技高網...

【技術保護點】
一種酚對發光菌毒性預測及評估的新型非線性高效模型的構建方法,其特征在于,1)構建信息全面的數據集:包括因變量Log?EC50?(expt.)、高維自變量、低維因變量log?Kow、μ和q?、高維自變量通過PCLIENT軟件計算而來;2)特征的非線性篩選:高維數據利用HDSN方法篩選特征,將高維數據變成低維數據,低維數據進一步利用WDEM方法篩選特征,最后保留的特征用來建模;3)非線性模型的構建和評估:基于包含關鍵特征的低維數據集和非線性的SVR方法,構建出20個高預測精度的非線性評估模型,?SVR2模型MSE=0.017;=0.921;特征數目=10最優,所述模型中的10個特征及其效應如下:PJI2差異顯著,?MATS3v差異顯著,?H1p差異顯著,?Mor02v差異顯著,?Mor14p差異顯著,?Mor02u差異顯著,?RDF040v差異顯著,?Mor23v差異顯著和MATS1m差異。FDA0000271919191.jpg
【技術特征摘要】
1.一種酚對發光菌毒性預測及評估的非線性高效模型的構建方法,其特征在于,1)構建信息全面的數據集:包括因變量LogEC50(expt.)、高維自變量、低維因變量logKOW、μ、q-、高維自變量通過PCLIENT軟件計算而來;2)特征的非線性篩選:高維數據利用高維特征快速非線性汰選HDSN方法篩選特征,將高維數據變成低維數據,低維數據進一步利用多輪末尾汰選WDEM方法篩選特征,最后保留的特征用來建模;3)非線性模型的構建和評估:基于包含關鍵特征的低維數據集和非線性的SVR方法,構建出20個高預測精度的非線性評估模型,SVR2模型MSE=0.005;特征數目=10最優,所述模型中的10個特征及其效應如下:PJI2為二維Petitjean形狀指數,差異顯著;MATS3v為Mora...
【專利技術屬性】
技術研發人員:周瑋,袁哲明,吳樹波,代志軍,陳淵,韓娜,
申請(專利權)人:湖南農業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。