報文過濾方法與裝置制造方法及圖紙

技術編號：8657623 閱讀：196 留言：0更新日期：2013-05-02 01:34

本發明專利技術提供了一種報文過濾方法與裝置，其中，報文過濾方法包括：使用第一過濾規則對報文進行過濾，過濾掉所述報文中符合設定格式的報文；判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配；若不匹配，則獲取不匹配的報文對應的文本信息和/或網頁狀態碼；根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。通過本發明專利技術，有效提高了報文過濾的準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及網絡
，特別是涉及一種報文過濾方法與裝置。
技術介紹
垃圾報文過濾是互聯網技術中一項重要的工作，一般是通過某種規則或遵循某種統計規律，將明顯非正常用戶訪問報文的部分過濾掉，從而減少互聯網的傳輸壓力和存儲壓力，也減少了后期提取、識別用戶報文的系統壓力。通過垃圾報文過濾，可以有效提高分析用戶報文效率，尤其在計算能力成為一種資源的互聯網時代，對垃圾報文的過濾比率和質量，影響著下游數據處理的效率和質量。現有的垃圾報文過濾主要采用網頁自動分類技術，網頁自動分類技術提取網頁文本內容和標簽信息，并賦予不同的權重因子，其核心是利用自動文本分類技術實現。實現自動文本分類的關鍵階段可劃分為主要的三個部分:特征選取策略、分類算法和閾值策略，通過這樣的自動文本分類過濾掉垃圾報文。但是，目前的自動文本分類技術對文檔表示特征稀疏或模糊的文本分類，顯得力不從心。尤其是短文本，有效文本特征的提取較少，而且容易產生諸如廣告、推薦信息、版權聲明等和內容無關的噪聲信息，更容易引起誤分類。此外，自動文本分類對大文本的處理，特征項空間的文書過高，數量過大的特征項，會導致無法準確提取代表文本的唯一主題有效特征信息，造成分類效果不佳，容易出現多峰分布等問題。可見，現有的自動文本分類技術的報文過濾準確性不高，無法有效過濾出垃圾報文。
技術實現思路
本專利技術提供了一種報文過濾方法與裝置，以解決現有的自動文本分類技術的報文過濾準確性不高，無法有效過濾出垃圾報文的問題。為了解決上述問題，本專利技術公開了一種報文過濾方法，包括:使用第一過濾規則對報文進行過濾，過濾掉所述報文中符合設定格式的報...

【技術保護點】
一種報文過濾方法，其特征在于，包括：使用第一過濾規則對報文進行過濾，過濾掉所述報文中符合設定格式的報文；判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配；若不匹配，則獲取不匹配的報文對應的文本信息和/或網頁狀態碼；根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。

【技術特征摘要】
1.一種報文過濾方法,其特征在于,包括: 使用第一過濾規則對報文進行過濾，過濾掉所述報文中符合設定格式的報文；判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配；若不匹配，則獲取不匹配的報文對應的文本信息和/或網頁狀態碼；根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾。2.根據權利要求1所述的方法，其特征在于，所述判斷過濾后的所述報文是否與黑名單或白名單中的報文相匹配的步驟包括: 判斷過濾后的所述報文的頁面瀏覽PV量是否大于第一設定閾值；對過濾后的所述報文中，PV量大于所述第一設定閾值的報文進行所述是否與黑名單或白名單中的報文相匹配的判斷。3.根據權利要求1或2所述的方法，其特征在于，所述獲取不匹配的報文對應的文本信息和/或網頁狀態碼的步驟包括: 獲取所述不匹配的報文的統一資源定位符URL，對其進行去除重復和打亂順序處理；對所述處理后的URL進行網頁爬取，獲得所述處理后的URL對應的網頁源碼和/或網頁狀態碼；若獲得到所述處理后的URL對應的網頁源碼，則對所述網頁源碼進行語法分析，獲取所述處理后的URL對應的文本信息。4.根據權利要求3所述的方法，其特征在于，所述根據所述文本信息和/或所述網頁狀態碼對所述不匹配的報文進行報文過濾的步驟包括: 若所述網頁狀態碼為非正常頁面返回碼，則過濾掉所述網頁狀態碼對應的報文，并將所述報文加入所述黑名單；若根據所述文本信息確定所述URL對應的網頁正文的字符數少于第二設定閾值、和/或所述網頁正文無標題、和/或所述網頁正文無文檔屬性信息，則過濾掉所述文本信息對應的報文，并將所述報文加入所述黑名單。5.根據權利要求1所述的方法，其特征在于，還包括: 若判斷過濾后的所述報文與所述黑名單中的報文匹配，則過濾掉匹配的所述報文；若判斷過濾后的所述報文與所述白名單中的報文匹配，則對匹配...

【專利技術屬性】
技術研發人員：羅峰，黃蘇支，李娜，
申請(專利權)人：北京億贊普網絡技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術