本發(fā)明專利技術(shù)公開了一種網(wǎng)站分類方法,包括:獲取網(wǎng)站的多維屬性,利用集合對多維屬性進行表示;針對表示多維屬性的集合,進行自編碼特征學習;利用自編碼學習結(jié)果,進行網(wǎng)站聚類學習,得到用于進行網(wǎng)站分類的支持向量機SVM;步驟S104,對任意一個未經(jīng)標注的網(wǎng)站進行分類時,先進行步驟S101和步驟S102,得到與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果;然后將該結(jié)構(gòu)輸入到步驟S103得到的SVM中,進行網(wǎng)站分類,得到網(wǎng)站的類別。本發(fā)明專利技術(shù)的網(wǎng)站分類方法能高效準確的按照行業(yè)類別對網(wǎng)站進行分類,并且能快速偵測具有惡意特征的釣魚網(wǎng)頁;采用多維屬性描述的方式,增加系統(tǒng)的便利性與通用性;且系統(tǒng)具有極強的穩(wěn)定性。
【技術(shù)實現(xiàn)步驟摘要】
一種網(wǎng)站分類方法
本專利技術(shù)涉及網(wǎng)絡(luò)安全
,特別是涉及一種網(wǎng)站分類方法。
技術(shù)介紹
伴隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的蓬勃發(fā)展,釣魚欺詐、木馬暗鏈和隱私泄露等網(wǎng)絡(luò)安全事件頻發(fā),對網(wǎng)絡(luò)用戶造成了嚴重的財產(chǎn)、精神傷害。如何能夠快速智能的識別釣魚網(wǎng)站,以及針對不同類型網(wǎng)站給出合適的隱私保護等級,成為當前安全領(lǐng)域研究的熱點。這就需要一種智能準確的網(wǎng)站分類的技術(shù)來處理海量互聯(lián)網(wǎng)網(wǎng)站。目前,對于網(wǎng)站分類技術(shù),國內(nèi)外的研究并不算很廣泛,而且分析中使用的網(wǎng)站特征描述較為單一。總體而言,主要有如下幾個研究方向:(1)基于網(wǎng)頁文本。JohnPierre最早提出將整個網(wǎng)站上網(wǎng)頁的文字或標簽集合為一個整體構(gòu)造空間向量,利用文本分類的方法進行分類,實驗結(jié)果并不理想。(2)基于網(wǎng)站結(jié)構(gòu)。Hans-PeterKriegel等人利用網(wǎng)站中各類類別網(wǎng)頁的出現(xiàn)頻率來進行網(wǎng)站分類,MajidYazdani等人在此基礎(chǔ)上提出了隱馬爾科夫的模型。這類網(wǎng)站分類模型特別適用單個類別網(wǎng)站的選取和判斷。(3)基于用戶HTTP行為分析。這一方法繞開了網(wǎng)頁本身的處理,利用HTTP協(xié)議的行為來處理網(wǎng)站分類問題。在網(wǎng)站分類的類別劃分上,還沒有一個統(tǒng)一的標準。但是,用戶在同一類別網(wǎng)站上的業(yè)務(wù)使用過程是類似的,而且針對釣魚網(wǎng)站之間也具有較強相似性。目前,最大的國際性人工網(wǎng)站分類目錄是OpenDirectoryProject,其中包含部分中文網(wǎng)站。就英文網(wǎng)站分類目錄而言,Yahoo!Directory和Alexa是比較著名的。深度學習(DeepLearning)是最近興起的一種新的機器學習模型,其能夠得到更好地表示復雜數(shù)據(jù)的特征,同時由于模型的層次、參數(shù)很多,效率足夠,因此,深度學習模型有能力表示類型互聯(lián)網(wǎng)網(wǎng)站這樣大規(guī)模數(shù)據(jù),能夠在大規(guī)模訓練數(shù)據(jù)上取得更好的效果。此外,從模式識別特征和分類器的角度,深度學習框架將特征選取和分類器結(jié)合到一個框架中,用數(shù)據(jù)去學習特征,在使用中減少了手工選取特征的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面),因此,不僅僅效果可以更好,而且,使用起來也有很多方便之處,因此,是十分合適的一套解決方案框架,自編碼(AutoEncoder)方法是深度學習方法中最常用的一種算法。該算法通過設(shè)置一個神經(jīng)網(wǎng)絡(luò)的輸出層矢量等于輸入矢量,并使隱層神經(jīng)元的數(shù)量少于輸入層,然后訓練調(diào)整其參數(shù),得到每一層中的權(quán)重。訓練好的網(wǎng)絡(luò)在隱層即為輸入特征向量的壓縮表示方法。這些壓縮后的特征在解決分類問題時有較好的效果。
技術(shù)實現(xiàn)思路
本專利技術(shù)要解決的技術(shù)問題是提供一種網(wǎng)站分類方法,用以解決現(xiàn)有技術(shù)中網(wǎng)站分類效果不佳的問題。為解決上述技術(shù)問題,本專利技術(shù)提供一種網(wǎng)站分類方法,包括:步驟S101,獲取網(wǎng)站的多維屬性,利用集合對多維屬性進行表示;步驟S102,針對表示多維屬性的集合,進行自編碼特征學習;步驟S103,利用自編碼學習結(jié)果,進行網(wǎng)站聚類學習,得到用于進行網(wǎng)站分類的支持向量機SVM;步驟S104,對任意一個未經(jīng)標注的網(wǎng)站進行分類時,先進行步驟S101和步驟S102,得到與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果;然后將與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果輸入到步驟S103得到的用于進行網(wǎng)站分類的支持向量機SVM中,進行網(wǎng)站分類,得到網(wǎng)站的類別。進一步,步驟S101具體包括:步驟S1011,提取網(wǎng)站首頁超文本標記語言HTML標題、HTML正文和層疊樣式表CSS主題色彩;步驟S1012,對所述HTML標題和HTML正文進行分詞處理,得到單詞向量集合B={w1,w2,…,wn},n為正整數(shù);步驟S1013,對每一個在向量B的單詞wi,統(tǒng)計其在網(wǎng)頁HTML的標簽<a>、<h1>-<h6>、<title>、<em>、<strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m為正整數(shù),m<=n;步驟S1014,統(tǒng)計所述CSS主題色彩中使用最多的3種顏色類別,得到色彩向量描述集合C,C={c1,c2,c3};步驟S1015,獲取屬性值,建立屬性描述集合S;其中,屬性值包括下述中的一項或多項:網(wǎng)站服務(wù)器類型、Poweredby信息(驅(qū)動信息)、腳本語言類型、返回狀態(tài)碼、跳轉(zhuǎn)次數(shù)、網(wǎng)站出處、外域個數(shù)、內(nèi)域個數(shù)和頁面大小;步驟S1016,根據(jù)集合B’、C和S,建立網(wǎng)站多維屬性樣本集合V,V=B’∪C∪S;其中∪表示并集。進一步,步驟S102具體包括:步驟S1021,構(gòu)建三層神經(jīng)網(wǎng)絡(luò)N,其輸入特征數(shù)量等于輸出數(shù)量,并且輸入特征數(shù)量等于步驟S1016中得到網(wǎng)站多維屬性集合V的特征數(shù)量;步驟S1022,用網(wǎng)站多維屬性集合V作為三層神經(jīng)網(wǎng)絡(luò)N的輸入值Input,計算當前三層神經(jīng)網(wǎng)絡(luò)環(huán)境下的輸出值Output;步驟S1023,比較輸入值Input與輸出值Output,計算二之差是否達到目標閾值;如果是,則轉(zhuǎn)步驟S1025,如果否,則轉(zhuǎn)步驟S1024;步驟S1024,根據(jù)梯度下降法調(diào)整三層神經(jīng)網(wǎng)絡(luò)N的參數(shù),并返回到步驟S1022;步驟S1025,完成學習,中間隱層節(jié)點向量V’即為自編碼學習結(jié)果。進一步,步驟S103具體包括:步驟S1031,構(gòu)建支持向量機SVM,使用向量V’作為輸入;步驟S1032,利用開源數(shù)據(jù)庫,標記設(shè)定數(shù)量的樣本網(wǎng)站的行業(yè)類別,得到已標注樣本集L;步驟S1033,利用SVM對已標注樣本集L中的標記數(shù)據(jù)樣本進行訓練與學習;判斷該SVM的分類結(jié)果是否滿足設(shè)定要求,如果是,則以該SVM作為進行分類的SVM;如果否,則修改SVM的參數(shù),然后對該SVM繼續(xù)進行訓練和學習,通過迭代訓練,直至其分類結(jié)果滿足設(shè)定要求,則以最終得到SVM作為進行分類的SVM。本專利技術(shù)有益效果如下:本專利技術(shù)的網(wǎng)站分類方法,能高效準確的按照行業(yè)類別對網(wǎng)站進行分類,并且對于具有惡意特征的釣魚網(wǎng)頁,能快速偵測出來;采用多維屬性描述的方式,增加系統(tǒng)的便利性與通用性;采用機器學習的方法,并且采樣的樣本較為廣泛,系統(tǒng)具有極強的穩(wěn)定性。附圖說明圖1是本專利技術(shù)實施例中一種網(wǎng)站分類方法的流程圖;圖2是本專利技術(shù)實施例中三層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;圖3是本專利技術(shù)實施例中進行網(wǎng)站聚類學習及網(wǎng)站分類的流程圖;圖4是本專利技術(shù)實施例中一個建立網(wǎng)站多維描述與聚集分類的示意圖。具體實施方式以下結(jié)合附圖以及實施例,對本專利技術(shù)進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本專利技術(shù),并不限定本專利技術(shù)。如圖1所示,本專利技術(shù)實施例涉及一種基于自編碼深度學習模型的網(wǎng)站分類方法,包括以下步驟:步驟S101,獲取網(wǎng)站的多維屬性,利用集合對多維屬性進行表示:本步驟具體包括以下步驟:步驟S1011,對網(wǎng)站首頁進行HTML(HyperTextMarkupLanguage,超文本標記語言)處理,提取出首頁HTML標題、HTML正文和CSS(CascadingStyleSheets,層疊樣式表)主題色彩;步驟S1012,對步驟S1011獲得的HTML標題和HTML正文進行分詞處理,按照出現(xiàn)頻率由高到底統(tǒng)計預定比例(例如,前50%)的所有名詞,并得到單詞向量B={w1,w2,…,wn},n為正整數(shù);步驟S1013,對每一個在向量B的單詞wi本文檔來自技高網(wǎng)...

【技術(shù)保護點】
一種網(wǎng)站分類方法,其特征在于,包括:步驟S101,獲取網(wǎng)站的多維屬性,利用集合對多維屬性進行表示;步驟S102,針對表示多維屬性的集合,進行自編碼特征學習;步驟S103,利用自編碼學習結(jié)果,進行網(wǎng)站聚類學習,得到用于進行網(wǎng)站分類的支持向量機SVM;步驟S104,對任意一個未經(jīng)標注的網(wǎng)站進行分類時,先進行步驟S101和步驟S102,得到與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果;然后將與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果輸入到步驟S103得到的用于進行網(wǎng)站分類的支持向量機SVM中,進行網(wǎng)站分類,得到網(wǎng)站的類別。
【技術(shù)特征摘要】
1.一種網(wǎng)站分類方法,其特征在于,包括:步驟S101,獲取網(wǎng)站的多維屬性,利用集合對多維屬性進行表示;步驟S102,針對表示多維屬性的集合,進行自編碼特征學習;步驟S103,利用自編碼學習結(jié)果,進行網(wǎng)站聚類學習,得到用于進行網(wǎng)站分類的支持向量機SVM;步驟S104,對任意一個未經(jīng)標注的網(wǎng)站進行分類時,先進行步驟S101和步驟S102,得到與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果;然后將與該網(wǎng)站對應(yīng)的自編碼學習結(jié)果輸入到步驟S103得到的用于進行網(wǎng)站分類的支持向量機SVM中,進行網(wǎng)站分類,得到網(wǎng)站的類別;所述步驟S101具體包括:步驟S1011,提取網(wǎng)站首頁超文本標記語言HTML標題、HTML正文和層疊樣式表CSS主題色彩;步驟S1012,對所述HTML標題和HTML正文進行分詞處理,得到單詞向量集合B={w1,w2,…,wn},n為正整數(shù);步驟S1013,對每一個在向量B的單詞wi,統(tǒng)計其在網(wǎng)頁HTML的標簽<a>、<h1>-<h6>、<title>、<em>、<strong>中出現(xiàn)的次數(shù),按出現(xiàn)的次數(shù)加權(quán)后排名,得到排名后新單詞向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m為正整數(shù),m<=n;步驟S1014,統(tǒng)計所述CSS主題色彩中使用最多的3種顏色類別,得到色彩向量描述集合C,C={c1,c2,c3};步驟S1015,獲取屬性值,建立屬性描述集合S;其中,屬性值包括下述中的一項或多項:網(wǎng)站服務(wù)器類型、Pow...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡俊,王明華,云曉春,李佳,賀敏,紀玉春,何能強,高勝,朱天,
申請(專利權(quán))人:國家計算機網(wǎng)絡(luò)與信息安全管理中心,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。