本發明專利技術公開了一種面向網絡敏感信息的截圖取證與鎖定回訪方法,該方法包括:對所監測網站的網頁數據進行采集;對網頁數據進行規范化處理、基于正則表達式抽取網頁標題和鏈接、基于網頁標題和鏈接進行敏感信息的匹配;對敏感信息進行外頁和內頁截圖;對敏感信息鎖定回訪以防止其“死灰復燃”;對敏感信息截圖結果進行存儲與查詢。對于網絡上的敏感信息,本發明專利技術能夠在最短時間內發現并對其截圖保存,防止此類網頁日后被更新或刪除,便于相關處置機構存檔取證和及時處置,以及對屢次發布敏感信息的網站進行處理。此外,本發明專利技術的方法還能夠有效解決對網絡敏感信息的監控和處置需求,適用于網絡輿情分析系統的實施。
【技術實現步驟摘要】
本專利技術涉及互聯網信息管理領域,特別是一種面向網絡敏感信息的截圖取證與鎖定回訪的方法。
技術介紹
近年來,互聯網在我國快速發展、迅速普及,日益成為人民群眾關注社會事務和表達意見的重要渠道。隨著我國信息化建設加快推進,互聯網在為信息交流帶來方便、文化建設注入生機的同時,也使網絡敏感信息“插上了翅膀”。敏感信息一般包括三大類政治類、色情類和其他,其一經出現就會引起網民的格外關注,進而產生巨大的輿論壓力。借助現代信息技術,網絡敏感信息的傳播方式、傳播速度、影響范圍呈幾何級數增長,危害巨大。加強此類信息的有效監管,對確保我國構建和諧社會、創造良好的網絡文化環境具有重要意義。 然而由于網絡上信息量巨大,傳統依靠人工的內容監管手段,在敏感信息的及時發現、有效處置方面日益暴露出應對能力有限、處置效率低下的問題。因此,研究面向網絡敏感信息的截圖取證與鎖定回訪系統具有重要的現實意義。對包含敏感信息的網頁第一時間截圖取證,可以防止此類網頁日后被更新或刪除,方便相關處置機構存檔取證以及對屢次發布敏感信息的網站進行處理。此外,此類網頁經處置后一段時間可能會再次出現,需對其進行鎖定回訪避免“死灰復燃”。目前國內市場主要的輿情系統具有的功能有 I、輿情信息采集根據用戶設定的目標關鍵詞和目標網站,通過網站頁面之間的鏈接關系,從網上自動采集頁面信息,并通過鏈接不斷向整個網絡范圍擴展,最終完成定制范圍的/[目息米集任務。2、輿情分析功能主要包括(1)熱點發現和熱點追蹤利用話題發現與追蹤技術把網民不關注的信息過濾掉,發現與追蹤網民關注的熱點和焦點;(2)話題傾向性分析對于發現的熱點話題,根據網民對其發表的觀點、傾向性進行統計分析,得出該話題的傾向性;(3)網頁自動分類用戶可以單獨使用關鍵字分類系統或自然語義智能分類系統,將采集的原始網頁自動分為多個類別;(4)統計分析統計數據以柱狀、餅狀、曲線等圖形直觀表現,并支持以word,excel等文件形式導出;(5)輿情簡報根據用戶自定義的簡報格式,將用戶關注的輿情信息自動添加到簡報中,輔助用戶生成各種類型的輿情簡報。3、輿情檢索功能對采集到的網頁信息進行多方位檢索,如按關鍵詞、發布網站、轉載網站、發布時間、發布作者等信息進行檢索。綜上,現有的網絡輿情系統主要針對采集到的所有網頁進行熱點話題的挖掘,并沒有一種較為有效地針對敏感輿情進行分析的方法,因此存在這樣一種技術需求,即,需要一種快速可靠的方法或系統來及時發現和監控網絡敏感輿情。
技術實現思路
本專利技術所要解決的技術問題是,針對現有技術不足,提供一種面向網絡敏感信息的截圖取證與鎖定回訪的方法,及時、準確地發現并取證網頁中的敏感信息,為網絡敏感信息監管部門監管模式的轉變和手段創新、創造良好網絡文化環境提供技術平臺保障。為解決上述技術問題,本專利技術所采用的技術方案是一種面向網絡敏感信息的截圖取證與鎖定回訪的方法,包括面向網絡敏感信息的截圖取證與鎖定回訪系統,面向網絡敏感信息的截圖取證與鎖定回訪的系統包括計算中心和數據庫服務器,計算中心與數據庫服務器通信,該方法的具體步驟為 1)利用網絡爬蟲采集網頁數據; 2)對采集的數據進行預處理,然后利用正則表達式抽取網頁中的信息,并利用這些信息進行敏感信息匹配; 3)對包含敏感信息的網頁進行截 4)對包含敏感信息的網頁進行鎖定回訪; 5)存儲截圖結果。網頁數據采集首先設置監測網站的網址,可以設置一個或多個監測網站;然后設置采集參數,如采集線程數、采集深度、網頁保存位置等;最后進行網頁數據采集,采集工具使用互聯網上免費提供的LoalaSam網絡爬蟲。敏感信息匹配首先對采集的網頁數據進行預處理,主要是對網頁源代碼進行規范化處理;然后基于正則表達式抽取網頁中的標題、鏈接等有用信息;最后進行敏感信息的匹配。網頁截圖對包含敏感信息的網頁進行截圖取證,截取的圖片包括網頁內頁和外頁,其中內頁是指該敏感信息的正文內容所在頁面,外頁是指該敏感信息的標題所在的導航頁面,用于引導用戶點擊進入其內頁,網頁截圖采用webbrowser控件。目標網頁鎖定回訪包含敏感信息的網頁經相關部門處置后可能會在該網站同一位置或其它位置再次出現,為防止其“死灰復燃”,將該網頁網址設置為鎖定狀態并加入系統回訪網址庫,系統將按照一定的時間周期對其再次回訪探測。截圖結果存儲與查詢截圖后的圖片可采用數據庫或文件兩種方式進行存儲。本專利技術中圖片的屬性及其存儲路徑采用數據庫存儲,圖片內容本身以文件方式存儲在本地硬盤中,本專利技術用到的數據庫版本為oracle IOgo本專利技術相對于現有技術的有益效果如下(1)通過對網頁標題進行關鍵詞匹配,可以在第一時間及時、快速的發現敏感信息,為遏制敏感信息的進一步擴散贏得寶貴時間;(2)通過對敏感信息進行截圖,將其以直觀的圖片形式保存下來,一方面可以防止敏感信息日后被更新或刪除,方便日后瀏覽查看;另一方面方便相關處置機構存檔取證,以及對屢次發布敏感信息的網站進行處理;(3)包含敏感信息的網頁經相關部門處置或刪除一段時間后,經常會在該網站同一位置或其它位置重新出現,這種“死灰復燃”現象在很大程度上增加了網絡敏感信息處置的難度和工作量。通過對敏感信息進行鎖定回訪,一旦該敏感信息再次出現,系統將自動加強對其的探測周期且在必要時進行預警,并再次發送給處置部門加強對其處置的力度,直至其徹底消亡。本專利技術的方法能及時、準確地發現并取證網頁中的敏感信息,為網絡敏感信息監管部門監管模式的轉變和手段創新、創造良好網絡文化環境提供了技術平臺保障。附圖說明圖I為本專利技術一實施例面向網絡敏感信息的截圖取證與鎖定回訪系統結構示意 圖2為本專利技術一實施例網頁敏感信息匹配流程 圖3為四種主流截圖插件對比分析 圖4為本專利技術一實施例網頁鎖定回訪流程 圖5為本專利技術一實施例截圖配置表; 圖6為本專利技術一實施例截圖信息表; 圖7為本專利技術一實施例敏感關鍵詞及監測網站設置示意 圖8為本專利技術一實施例用戶所設置的任務列表; 圖9為本專利技術一實施例截圖結果顯示界面示意 圖10為本專利技術一實施例面向網絡敏感信息的截圖取證與鎖定回訪方法流程圖。具體實施例方式下面結合附圖詳細說明本專利技術的具體實施方式。如圖I所示,本專利技術的面向網絡敏感信息的截圖取證與鎖定回訪的系統包括計算中心和數據庫服務器,計算中心與數據庫服務器通信。如圖10所示,本專利技術的方法步驟如下 (一)網頁數據采集 網頁數據的采集是網絡敏感信息截圖取證的數據基礎,本專利技術利用名為LoalaSam的網絡爬蟲(蜘蛛)進行采集。LoalaSam是一個由VC6. O開發,運行在Windows平臺上的網絡爬蟲,它可以高效地從互聯網上獲取海量資源,這些資源包括網頁文本信息、圖片、音頻、視頻以及其他類型的文件資源。可在http://code, google, com/p/loalasam/下載最新的LoalaSam 版本。LoalaSam具有以下特點 (O高效的互聯網爬行及資源下載; (2)廣泛的目標資源及可配置性; (3)多線程下載及異步請求機制; (4)深度優先爬行算法; (5)可選擇性的遍歷單個域名、多個域名、網站或者整個互聯網; (6)LoalaSam能夠達到網絡環境支持的最大下載速度,例如用戶網絡限速為8本文檔來自技高網...
【技術保護點】
一種面向網絡敏感信息的截圖取證與鎖定回訪的方法,包括面向網絡敏感信息的截圖取證與鎖定回訪系統,面向網絡敏感信息的截圖取證與鎖定回訪的系統包括計算中心和數據庫服務器,計算中心與數據庫服務器通信,其特征在于,該方法的具體步驟為:1)利用網絡爬蟲采集網頁數據;2)對采集的數據進行預處理,然后利用正則表達式抽取網頁中的信息,并利用這些信息進行敏感信息匹配;3)對包含敏感信息的網頁進行截圖;4)對包含敏感信息的網頁進行鎖定回訪;5)存儲截圖結果。
【技術特征摘要】
1.一種面向網絡敏感信息的截圖取證與鎖定回訪的方法,包括面向網絡敏感信息的截圖取證與鎖定回訪系統,面向網絡敏感信息的截圖取證與鎖定回訪的系統包括計算中心和數據庫服務器,計算中心與數據庫服務器通信,其特征在于,該方法的具體步驟為 1)利用網絡爬蟲采集網頁數據; 2)對采集的數據進行預處理,然后利用正則表達式抽取網頁中的信息,并利用這些信息進行敏感信息匹配; 3)對包含敏感信息的網頁進行截圖; 4)對包含敏感信息的網頁進行鎖定回訪; 5)存儲截圖結果。2.根據權利要求I所述的面向網絡敏感信息的截圖取證與鎖定回訪的方法,其特征在于,所述步驟I)中,網絡爬蟲為LoalaSam。3.根據權利要求I所述的面向網絡敏感信息的截圖取證與鎖定回訪的方法,其特征在于,所述步驟2)中,預處理是指對網頁進行規范化處理。4.根據權利要求I所述的面向網絡敏感信息的截圖取證與鎖定回訪的方法,其特征在于,所述步驟2)中,利用正則表達式抽取網頁中的標題、超鏈接信息。5.根據權利要求I所述的面向網絡敏感信息的截圖取證與鎖定回訪的方法,其特征在于,所述步驟2)中,敏感信息匹配為標題匹配,其實現過程如下 1)遍歷網頁包含的第一個超鏈接,獲取該超鏈接對應的標題,對其標題進行分詞; 2)將用戶設定的關鍵詞逐一與標題分詞結果進行匹配,判斷該標題是否包含設定的關鍵詞; 3)若匹配成功,對該網頁進行標記,用于后續外頁截圖;同時標記該超鏈接,用于后續內頁截圖; 4)若匹配未成功,返回I)繼續遍歷下一個超鏈接。6.根據權利要求I所述的面向網絡敏感信息的截圖取證與鎖定回訪的方法,其特征在于,所述步驟3)中,利用Webbrowser插件中的Navigate及DrawToBitmap方法實現網頁截圖,其實現過程如下 O將用戶所需截圖的網頁鏈接URL傳遞給Navigate方法; 2)Navigate方法將指定URL處的文檔加載到WebBrowser插件中,同時為防止網頁加載時間過長甚至無法加載成功...
【專利技術屬性】
技術研發人員:李芳芳,葛斌,湯大權,肖衛東,殷風景,賀明科,封孝生,譚文堂,
申請(專利權)人:中國人民解放軍國防科學技術大學,
類型:發明
國別省市: