• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網頁危險性的識別系統技術方案

    技術編號:8593987 閱讀:241 留言:0更新日期:2013-04-18 07:10
    本發明專利技術實施例公開了一種網頁危險性的識別系統,所述系統包括網頁收集服務器、客戶端、網頁存儲服務器、網頁危險性識別引擎;所述網頁收集服務器和客戶端收集待檢測網頁,并發送到網頁處理服務器;所述網頁危險性識別引擎從所述網頁存儲服務器提取待檢測網頁并對待檢測網頁的危險性進行識別;所述網頁危險性識別引擎包括:候選表征信息組成模塊;合并模塊;篩選模塊;模型訓練模塊;識別模塊。相比于人工篩選釣魚網頁文本特征,本發明專利技術實施例大大提高了信息提取的效率。

    【技術實現步驟摘要】

    本專利技術實施例涉及網頁安全
    ,具體涉及一種網頁危險性的識別系統
    技術介紹
    釣魚網站主要是通過仿冒真實網站的URL地址或是頁面內容,偽裝成銀行及電子商務等類型的網站,或是利用真實網站服務器程序上的漏洞,在該網站的某些網頁中插入危險的網頁代碼,以此來騙取用戶銀行或信用卡賬號、密碼等私人資料。釣魚網頁中包含著許多敏感的特征,例如,金融欺詐類的釣魚網頁會在文字、圖片等方面仿冒官網,或是在真實網頁中插入虛假票務、虛假中獎、假冒網銀、虛假購物等信息,這些特征大多以文本串的形式出現在網頁中。目前對釣魚網頁識別的方法,主要是通過人工審核釣魚網頁,以收集一些簡單的釣魚網站的文本特征,供瀏覽器插件依據這些文本特征對網頁內容進行判斷,過濾掉這些已報告的攻擊網站。但是,現今釣魚網站的存活期越來越短,新的釣魚網頁層出不窮,需要審核的網頁量太大;并且釣魚網站的特征變化加快,按照傳統的人工審核的方式,提取信息的效率會比較低。
    技術實現思路
    鑒于上述問題,提出了本專利技術以便提供一種克服上述問題或者至少部分地解決上述問題的網頁危險性的識別系統。根據本專利技術,提供了一種網頁危險性的識別系統,包括網頁收集服務器、客戶端、網頁存儲服務器、網頁危險性識別引擎;所述網頁收集服務器和客戶端收集待檢測網頁,并發送到網頁處理服務器;所述網頁危險性識別引擎從所述網頁存儲服務器提取待檢測網頁并對待檢測網頁的危險性進行識別;所述網頁危險性識別引擎包括候選表征信息組成模塊,適于收集安全網頁和危險網頁,將所述安全網頁和危險網頁所包含的各個字符依次組成多個候選表征信息;合并模塊,適于合并符合預設相似條件的候選表征信息;篩選模塊,適于統計合并后的各個候選表征信息對劃分安全網頁和危險網頁的表征參數,并依據所述表征參數篩選多個候選表征信息作為網頁危險性的表征信息;模型訓練模塊,適于依據所述表征信息訓練網頁危險性的預測模型;識別模塊,適于依據所述預測模型對待檢測網頁的危險性進行識別。本專利技術實施例中,所述候選表征信息組成模塊包括第一提取子模塊,適于提取安全網頁和危險網頁所對應的頁面內容;第二提取子模塊,適于以連續的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內容中提取多個候選表征信息。本專利技術實施例中,所述合并模塊包括公共子串提取子模塊,適于針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串;范圍判斷子模塊,判斷所述最長公共子串的字符個數是否符合第一預設范圍,且所述兩個候選表征信息在安全網頁和危險網頁中總共出現的次數的差值是否符合第二預設范圍;信息刪除子模塊,適于當所述范圍判斷子模塊的結果為是時,刪除在各個安全網頁和危險網頁中總共出現的次數較小的候選表征信息。本專利技術實施例中,所述公共子串提取子模塊包括矩陣形成子單元,適于將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣;賦值子單元,適于針對矩陣中的各個節點,若對應的行列字符相同,則設置節點值為1,若不同,則設置節點值為0,并以該節點的節點值與左上角的所有節點的節點值之和對該節點的節點值重新賦值;字符提取子單元,適于提取節點值最大的節點所在對角線中,連續的、節點值非0的節點對應的字符作為最長公共子串。本專利技術實施例中,所述表征參數包括表征信息與危險網頁的相關性參數,以及表征信息對劃分安全網頁和危險網頁的權重參數;所述篩選模塊包括相關性篩選子模塊,適于分別統計合并后的各個候選表征信息與危險網頁的相關性參數,并篩選所述相關性參數從大到小排序靠前的候選表征信息;權重篩選子模塊,適于分別統計篩選后的各個候選表征信息對劃分安全網頁和危險網頁的權重參數,并篩選所述權重參數從大到小排序靠前的候選表征信息。本專利技術實施例中,所述相關性篩選子模塊依據合并后的各個候選表征信息在安全網頁和危險網頁中分別出現的次數,通過卡方檢驗法,計算各個候選表征信息與危險網頁的相關性參數。本專利技術實施例中,所述權重篩選子模塊依據篩選后的各個候選表征信息在各個安全網頁和各個危險網頁中分別出現的次數,構建安全網頁和危險網頁的分類函數,并依據所述分類函數確定各個候選表征信息的權重參數。本專利技術實施例中,通過支持向量機線性分類器構建安全網頁和危險網頁的分類函數。本專利技術實施例中,所述預測模型包括各表征信息在網頁中出現的次數與網頁危險性的對應關系;所述識別模塊包括次數統計子模塊,適于統計各表征信息在待預測網頁中出現的次數,并輸入所述預測模型;識別結果生成子模塊,適于所述預測模型依據各表征信息在待預測網頁中出現的次數,以及各表征信息在網頁中出現的次數與網頁危險性的對應關系,生成待檢測網頁的危險性識別結果。本專利技術實施例中,所述預測模型通過隨機森林分類器訓練,所述預測模型包括多個決策樹子模型,各決策樹子模型分別包括表征信息在網頁中出現的次數與網頁危險性的對應關系;所述識別結果生成子模塊進一步包括預測結果生成子單元,適于各決策樹子模型依據各表征信息在待預測網頁中出現的次數,以及各表征信息在網頁中出現的次數與網頁危險性的對應關系,生成待檢測網頁的危險性預測結果;預測結果處理子單元,適于將各決策樹子模型生成的危險性預測結果進行加權平均,將加權平均的結果作為待檢測網頁的危險性識別結果。本專利技術實施例通過收集已知的安全網頁和危險網頁,從收集的網頁中提取多個候選表征信息,并依據候選表征信息在劃分安全網頁和危險網頁時的表征參數,對候選表征信息進行篩選得到表征信息,相比于人工篩選,本專利技術實施例大大提高了信息提取的效率。本專利技術實施例還依據篩選出的表征信息構建網頁危險性識別模型,相比于現有技術中僅僅依據網頁是否包含特征信息來識別危險網頁,本專利技術對于危險網頁,尤其是釣魚網頁可以提高識別的準確率。上述說明僅是本專利技術技術方案的概述,為了能夠更清楚了解本專利技術的技術手段,而可依照說明書的內容予以實施,并且為了讓本專利技術的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本專利技術的具體實施方式。附圖說明通過閱讀下文 優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本專利技術的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖1示出了根據本專利技術實施例所述的一種網頁危險性的識別方法的流程圖;圖2示出了根據本專利技術實施例所述的一種網頁危險性的識別裝置的實施例的結構框圖;圖3示出了根據本專利技術實施例所述的一種網頁危險性的識別系統的實施例的結構框4A是候選表征彳目息構建的矩陣不意圖,圖4B是重新賦值后的矩陣不意圖;圖5是一個二維數據的分類示意圖;圖6示出了待測網頁危險性識別的示意圖。具體實施例方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。本專利技術實施例可以應用于計算機系統/服務器,其可與眾多其它通用或專用計算系統環境或配置一起操作。適于與計算機系統/服務器一起使用的眾所周知的計算系統、環境和/或配置的例子包括但不限于個人計算機系統、服務器計算機系統、瘦客戶機、厚客戶機、手持或膝上設備、基于微處本文檔來自技高網...

    【技術保護點】
    一種網頁危險性的識別系統,包括:網頁收集服務器、客戶端、網頁存儲服務器、網頁危險性識別引擎;所述網頁收集服務器和客戶端收集待檢測網頁,并發送到網頁處理服務器;所述網頁危險性識別引擎從所述網頁存儲服務器提取待檢測網頁并對待檢測網頁的危險性進行識別;所述網頁危險性識別引擎包括:候選表征信息組成模塊,適于收集安全網頁和危險網頁,將所述安全網頁和危險網頁所包含的各個字符依次組成多個候選表征信息;合并模塊,適于合并符合預設相似條件的候選表征信息;篩選模塊,適于統計合并后的各個候選表征信息對劃分安全網頁和危險網頁的表征參數,并依據所述表征參數篩選多個候選表征信息作為網頁危險性的表征信息;模型訓練模塊,適于依據所述表征信息訓練網頁危險性的預測模型;識別模塊,適于依據所述預測模型對待檢測網頁的危險性進行識別。

    【技術特征摘要】
    1.一種網頁危險性的識別系統,包括 網頁收集服務器、客戶端、網頁存儲服務器、網頁危險性識別引擎; 所述網頁收集服務器和客戶端收集待檢測網頁,并發送到網頁處理服務器; 所述網頁危險性識別引擎從所述網頁存儲服務器提取待檢測網頁并對待檢測網頁的危險性進行識別; 所述網頁危險性識別引擎包括 候選表征信息組成模塊,適于收集安全網頁和危險網頁,將所述安全網頁和危險網頁所包含的各個字符依次組成多個候選表征信息; 合并模塊,適于合并符合預設相似條件的候選表征信息; 篩選模塊,適于統計合并后的各個候選表征信息對劃分安全網頁和危險網頁的表征參數,并依據所述表征參數篩選多個候選表征信息作為網頁危險性的表征信息; 模型訓練模塊,適于依據所述表征信息訓練網頁危險性的預測模型; 識別模塊,適于依據所述預測模型對待檢測網頁的危險性進行識別。2.根據權利要求1所述的識別系統,所述候選表征信息組成模塊包括 第一提取子模塊,適于提取安全網頁和危險網頁所對應的頁面內容; 第二提取子模塊,適于以連續的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內容中提取多個候選表征信息。3.根據權利要求1所述的識別系統,所述合并模塊包括 公共子串提取子模塊,適于針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串; 范圍判斷子模塊,判斷所述最長公共子串的字符個數是否符合第一預設范圍,且所述兩個候選表征信息在安全網頁和危險網頁中總共出現的次數的差值是否符合第二預設范圍; 信息刪除子模塊,適于當所述范圍判斷子模塊的結果為是時,刪除在各個安全網頁和危險網頁中總共出現的次數較小的候選表征信息。4.根據權利要求3所述的識別系統,所述公共子串提取子模塊包括 矩陣形成子單元,適于將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣; 賦值子單元,適于針對矩陣中的各個節點,若對應的行列字符相同,則設置節點值為1,若不同,則設置節點值為O,并以該節點的節點值與左上角的所有節點的節點值之和對該節點的節點值重新賦值; 字符提取子單元,適于提取節點值最大的節點所在對角線中,連續的、節點值非O...

    【專利技術屬性】
    技術研發人員:董毅韓洪偉謝軍樣劉緒平唐杰
    申請(專利權)人:北京奇虎科技有限公司奇智軟件北京有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产精品白浆无码流出| 本免费AV无码专区一区| 亚洲国产精品无码观看久久| 国产精品亚洲专区无码不卡| 免费无码成人AV片在线在线播放| 亚洲精品无码久久毛片| 韩国免费a级作爱片无码| 亚洲av日韩av高潮潮喷无码| 无码国产精品一区二区免费式直播| 久久精品?ⅴ无码中文字幕| 久久久久久精品无码人妻| 久久午夜无码免费| 亚洲精品一级无码鲁丝片| 日韩国产精品无码一区二区三区| 日韩电影无码A不卡| 亚洲av无码成人影院一区| 亚洲国产日产无码精品| 国产精品无码一区二区在线观一 | 亚洲av无码天堂一区二区三区| 亚洲中文字幕不卡无码| 国产精品亚洲а∨无码播放麻豆| 亚洲精品色午夜无码专区日韩| 国产爆乳无码视频在线观看3| 精品无码AV无码免费专区| 国产办公室秘书无码精品99| 精品亚洲成α人无码成α在线观看 | 99精品一区二区三区无码吞精| 亚洲AV无码一区二三区 | 国产成人无码AⅤ片在线观看| 无码人妻一区二区三区精品视频| 91精品久久久久久无码 | 潮喷失禁大喷水aⅴ无码| 亚洲AV无码AV日韩AV网站| 一本无码人妻在中文字幕免费| 精品无码日韩一区二区三区不卡| 亚洲va无码手机在线电影| 无码中文字幕日韩专区视频| 午夜无码伦费影视在线观看| 无码人妻精品一区二区三区在线 | 国产AV一区二区三区无码野战| 少妇无码?V无码专区在线观看|