• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    報文過濾方法與裝置制造方法及圖紙

    技術編號:8657623 閱讀:196 留言:0更新日期:2013-05-02 01:34
    本發明專利技術提供了一種報文過濾方法與裝置,其中,報文過濾方法包括:使用第一過濾規則對報文進行過濾,過濾掉所述報文中符合設定格式的報文;判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配;若不匹配,則獲取不匹配的報文對應的文本信息和/或網頁狀態碼;根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。通過本發明專利技術,有效提高了報文過濾的準確率。

    【技術實現步驟摘要】

    本專利技術涉及網絡
    ,特別是涉及一種報文過濾方法與裝置
    技術介紹
    垃圾報文過濾是互聯網技術中一項重要的工作,一般是通過某種規則或遵循某種統計規律,將明顯非正常用戶訪問報文的部分過濾掉,從而減少互聯網的傳輸壓力和存儲壓力,也減少了后期提取、識別用戶報文的系統壓力。通過垃圾報文過濾,可以有效提高分析用戶報文效率,尤其在計算能力成為一種資源的互聯網時代,對垃圾報文的過濾比率和質量,影響著下游數據處理的效率和質量。現有的垃圾報文過濾主要采用網頁自動分類技術,網頁自動分類技術提取網頁文本內容和標簽信息,并賦予不同的權重因子,其核心是利用自動文本分類技術實現。實現自動文本分類的關鍵階段可劃分為主要的三個部分:特征選取策略、分類算法和閾值策略,通過這樣的自動文本分類過濾掉垃圾報文。但是,目前的自動文本分類技術對文檔表示特征稀疏或模糊的文本分類,顯得力不從心。尤其是短文本,有效文本特征的提取較少,而且容易產生諸如廣告、推薦信息、版權聲明等和內容無關的噪聲信息,更容易引起誤分類。此外,自動文本分類對大文本的處理,特征項空間的文書過高,數量過大的特征項,會導致無法準確提取代表文本的唯一主題有效特征信息,造成分類效果不佳,容易出現多峰分布等問題。可見,現有的自動文本分類技術的報文過濾準確性不高,無法有效過濾出垃圾報文。
    技術實現思路
    本專利技術提供了一種報文過濾方法與裝置,以解決現有的自動文本分類技術的報文過濾準確性不高,無法有效過濾出垃圾報文的問題。為了解決上述問題,本專利技術公開了一種報文過濾方法,包括:使用第一過濾規則對報文進行過濾,過濾掉所述報文中符合設定格式的報文;判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配;若不匹配,則獲取不匹配的報文對應的文本信息和/或網頁狀態碼;根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。優選地,所述判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配的步驟包括:判斷過濾后的所述報文的頁面瀏覽PV量是否大于第一設定閾值;對過濾后的所述報文中,PV量大于所述第一設定閾值的報文進行所述是否與黑名單或白名單中的報文相匹配的判斷。優選地,所述獲取不匹配的報文對應的文本信息和/或網頁狀態碼的步驟包括:獲取所述不匹配的報文的統一資源定位符URL,對其進行去除重復和打亂順序處理;對所述處理后的URL進行網頁爬取,獲得所述處理后的URL對應的網頁源碼和/或網頁狀態碼;若獲得到所述處理后的URL對應的網頁源碼,則對所述網頁源碼進行語法分析,獲取所述處理后的URL對應的文本信息。優選地,所述根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾的步驟包括:若所述網頁狀態碼為非正常頁面返回碼,則過濾掉所述網頁狀態碼對應的報文,并將所述報文加入所述黑名單;若根據所述文本信息確定所述URL對應的網頁正文的字符數少于第二設定閾值、和/或所述網頁正文無標題、和/或所述網頁正文無文檔屬性信息,則過濾掉所述文本信息對應的報文,并將所述報文加入所述黑名單。優選地,所述報文過濾方法還包括:若判斷過濾后的所述報文與所述黑名單中的報文匹配,則過濾掉匹配的所述報文;若判斷過濾后的所述報文與所述白名單中的報文匹配,則對匹配的所述報文放行。優選地,所述使用第一過濾規則對報文進行過濾,過濾掉所述報文中符合設定格式的報文的步驟包括:根據報文的URL使用第一過濾規則對報文進行過濾,過濾掉所述報文中URL與設定格式的URL相匹配的報文。為了解決上述問題,本專利技術公開了一種報文過濾裝置,包括:第一過濾模塊,用于使用第一過濾規則對報文進行過濾,過濾掉所述報文中符合設定格式的報文;判斷模塊,用于判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配;獲取模塊,用于若所述判斷模塊的判斷結果為不匹配,則獲取不匹配的報文對應的文本信息和/或網頁狀態碼;第二過濾模塊,用于根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。優選地,所述判斷模塊,用于判斷過濾后的所述報文的頁面瀏覽PV量是否大于第一設定閾值;對過濾后的所述報文中,PV量大于所述第一設定閾值的報文進行所述是否與黑名單或白名單中的報文相匹配的判斷。優選地,所述獲取模塊,用于若所述判斷模塊的判斷結果為不匹配,則獲取所述不匹配的報文的統一資源定位符URL,對其進行去除重復和打亂順序處理;對所述處理后的URL進行網頁爬取,獲得所述處理后的URL對應的網頁源碼和/或網頁狀態碼;若獲得到所述處理后的URL對應的網頁源碼,則對所述網頁源碼進行語法分析,獲取所述處理后的URL對應的文本信息。優選地,所述第二過濾模塊,用于若所述網頁狀態碼為非正常頁面返回碼,則過濾掉所述網頁狀態碼對應的報文,并將所述報文加入所述黑名單;若根據所述文本信息確定所述URL對應的網頁正文的字符數少于第二設定閾值、和/或所述網頁正文無標題、和/或所述網頁正文無文檔屬性信息,則過濾掉所述文本信息對應的報文,并將所述報文加入所述黑名單。與現有技術相比,本專利技術具有以下優點:本專利技術首先使用第一過濾規則對報文進行初步過濾,過濾掉設定格式的報文;然后,再對進行了初步過濾后的報文進行黑白名單匹配;對于不匹配的報文獲取相應的文本信息和/或網頁狀態碼,進而根據這些文本信息和/或網頁狀態碼對報文進行進一步過濾。一方面,通過初步過濾和黑白名單匹配,大大減少了需要再次過濾的報文數量,以便于準確提取報文的有效特征信息,提高報文過濾準確率;另一方面,本領域技術人員可以根據實際需求設置第一過濾規則過濾掉的報文的報文格式,以有效減少報文過濾時的噪聲信息,進而提高報文過濾準確率。可見,通過本專利技術,解決了現有的自動文本分類技術的報文過濾準確性不高,無法有效過濾出垃圾報文的問題,有效提高了報文過濾的準確率。附圖說明圖1是根據本專利技術實施例一的一種報文過濾方法的步驟流程圖;圖2是根據本專利技術實施例二的一種報文過濾方法的步驟流程圖;圖3是根據本專利技術實施例三的一種報文過濾方法的步驟流程圖;圖4是根據本專利技術實施例四的一種報文過濾裝置的結構框圖。具體實施例方式為使本專利技術的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本專利技術作進一步詳細的說明。實施例一參照圖1,示出了根據本專利技術實施例一的一種報文過濾方法的步驟流程圖。本實施例的報文過濾方法包括以下步驟:步驟S102:使用第一過濾規則對報文進行過濾,過濾掉報文中符合設定格式的報文。通過對垃圾報文進行分析可知,很多垃圾報文可以通過一定的格式識別,如通過URL后綴識別等,本領域技術人員可以通過在第一過濾規則中設置待過濾的垃圾報文格式,將一部分垃圾報文過濾掉。如,將第一過濾規則設置為根據報文的URL (Uniform Resource Locator,統一資源定位符)后綴過濾非文本格式的URL的規則,則使用該規則對報文進行過濾時,會將非文本格式URL的報文過濾掉。當然,不限于此,本領域技術人員在實際應用中可以根據實際需要進行適當設置,以將明顯的垃圾報文初步過濾掉,減少后續報文過濾量。步驟S104:判斷過濾后的報文是否與黑名單或白名單中的報文相匹配。其中,黑白名單分別為將網頁判定為正常報文和非正常報文的列表,黑名單為非正常報文,即非正常用戶訪問的垃圾報文,一般為用戶本文檔來自技高網...

    【技術保護點】
    一種報文過濾方法,其特征在于,包括:使用第一過濾規則對報文進行過濾,過濾掉所述報文中符合設定格式的報文;判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配;若不匹配,則獲取不匹配的報文對應的文本信息和/或網頁狀態碼;根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。

    【技術特征摘要】
    1.一種報文過濾方法,其特征在于,包括: 使用第一過濾規則對報文進行過濾,過濾掉所述報文中符合設定格式的報文; 判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配; 若不匹配,則獲取不匹配的報文對應的文本信息和/或網頁狀態碼; 根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。2.根據權利要求1所述的方法,其特征在于,所述判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配的步驟包括: 判斷過濾后的所述報文的頁面瀏覽PV量是否大于第一設定閾值; 對過濾后的所述報文中,PV量大于所述第一設定閾值的報文進行所述是否與黑名單或白名單中的報文相匹配的判斷。3.根據權利要求1或2所述的方法,其特征在于,所述獲取不匹配的報文對應的文本信息和/或網頁狀態碼的步驟包括: 獲取所述不匹配的報文的統一資源定位符URL,對其進行去除重復和打亂順序處理; 對所述處理后的URL進行網頁爬取,獲得所述處理后的URL對應的網頁源碼和/或網頁狀態碼; 若獲得到所述處理后的URL對應的網頁源碼,則對所述網頁源碼進行語法分析,獲取所述處理后的URL對應的文本信息。4.根據權利要求3所述的方法,其特征在于,所述根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾的步驟包括: 若所述網頁狀態碼為非正常頁面返回碼,則過濾掉所述網頁狀態碼對應的報文,并將所述報文加入所述黑名單; 若根據所述文本信息確定所述URL對應的網頁正文的字符數少于第二設定閾值、和/或所述網頁正文無標題、和/或所述網頁正文無文檔屬性信息,則過濾掉所述文本信息對應的報文,并將所述報文加入所述黑名單。5.根據權利要求1所述的方法,其特征在于,還包括: 若判斷過濾后的所述報文與所述黑名單中的報文匹配,則過濾掉匹配的所述報文; 若判斷過濾后的所述報文與所述白名單中的報文匹配,則對匹配...

    【專利技術屬性】
    技術研發人員:羅峰黃蘇支李娜
    申請(專利權)人:北京億贊普網絡技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码性午夜视频在线观看| 国产av无码专区亚洲国产精品| 国精品无码一区二区三区在线 | 亚洲国产精品成人精品无码区在线 | 无码任你躁久久久久久久| 成人无码区免费A∨直播| AAA级久久久精品无码片| 国产台湾无码AV片在线观看| 91久久九九无码成人网站| 国精品无码一区二区三区在线蜜臀| 无码人妻丰满熟妇啪啪网站| 国产午夜无码视频在线观看| 国产午夜无码片在线观看影院 | 午夜无码中文字幕在线播放| 亚洲日韩精品无码专区| 亚洲AV中文无码字幕色三| 国产精品成人无码久久久| 69ZXX少妇内射无码| 日韩人妻无码一区二区三区久久| 国产午夜无码片在线观看影院 | 国产AV无码专区亚洲精品| 日韩av片无码一区二区三区不卡| 亚洲精品无码日韩国产不卡av| 免费A级毛片无码专区| 亚洲VA中文字幕不卡无码| 亚洲精品午夜无码专区| 国产精品99精品无码视亚| 久久精品无码一区二区三区日韩| 伊人蕉久中文字幕无码专区| 免费无码黄十八禁网站在线观看| 亚洲av无码电影网| 91嫩草国产在线无码观看| 精品无码一区二区三区亚洲桃色| 少妇人妻偷人精品无码视频| 久久久久亚洲AV片无码| 久久亚洲AV无码精品色午夜麻豆| 无码人妻丰满熟妇精品区| 少妇无码AV无码专区在线观看 | 成人免费无码大片a毛片| 国产精品无码制服丝袜| 国产99久久九九精品无码|