【技術(shù)實(shí)現(xiàn)步驟摘要】
一種網(wǎng)頁(yè)數(shù)據(jù)處理方法及裝置
本申請(qǐng)涉及移動(dòng)通信
,特別是涉及一種網(wǎng)頁(yè)數(shù)據(jù)處理方法及裝置。
技術(shù)介紹
網(wǎng)站運(yùn)營(yíng)者通常會(huì)在網(wǎng)頁(yè)內(nèi)植入某些商家的數(shù)據(jù),例如廣告,以相應(yīng)獲得這些商家的贊助,進(jìn)而保障網(wǎng)站的正常運(yùn)行及盈利;但對(duì)于用戶來說,網(wǎng)頁(yè)中植入的這些數(shù)據(jù)均屬于非有效內(nèi)容,其存在給用戶帶來了諸多不便,如:用戶在瀏覽一個(gè)新網(wǎng)頁(yè)時(shí),首先需要區(qū)分其中的廣告等非有效內(nèi)容和有效內(nèi)容;或者,由于廣告內(nèi)容對(duì)相應(yīng)網(wǎng)頁(yè)區(qū)域中有效內(nèi)容的遮擋,導(dǎo)致用戶難以獲取該有效內(nèi)容。為了給用戶提供一個(gè)潔凈的網(wǎng)絡(luò)環(huán)境,多數(shù)瀏覽器都設(shè)置有過濾功能,以濾除網(wǎng)頁(yè)中植入的非有效內(nèi)容,例如過濾廣告;其過濾原理一般為:根據(jù)待過濾網(wǎng)頁(yè)的排版樣式、框架代碼等特征制定對(duì)應(yīng)的過濾規(guī)則,通過該過濾規(guī)則來識(shí)別網(wǎng)頁(yè)中的非有效內(nèi)容(例如廣告),并阻斷非有效內(nèi)容在網(wǎng)頁(yè)中的加載過程或?qū)⒎怯行?nèi)容在頁(yè)面中隱藏,不進(jìn)行顯示。但實(shí)際應(yīng)用中,由于網(wǎng)頁(yè)的排版樣式會(huì)隨著網(wǎng)站的更新而發(fā)生變化,或者,網(wǎng)站維護(hù)者為避免其植入的數(shù)據(jù)被過濾而刻意更改網(wǎng)頁(yè)的排版樣式或框架代碼等特征,導(dǎo)致預(yù)設(shè)的過濾規(guī)則不再適用于更新后的網(wǎng)頁(yè),從而出現(xiàn)過濾失效、誤過濾有效內(nèi)容等過濾問題。因此,需要及時(shí)發(fā)現(xiàn)上述過濾問題,以便優(yōu)化過濾方法,提高過濾準(zhǔn)確度。一般的,通過人工檢測(cè)法來確定網(wǎng)頁(yè)是否存在過濾問題,能夠保證檢測(cè)結(jié)果的準(zhǔn)確性,但由于網(wǎng)站數(shù)量巨大,且每個(gè)網(wǎng)站每天可能更新十幾次甚至更多,該人工檢測(cè)法無法保證及時(shí)檢測(cè)到每次過濾問題,檢測(cè)效率極低。
技術(shù)實(shí)現(xiàn)思路
本申請(qǐng)實(shí)施例中提供了一種網(wǎng)頁(yè)數(shù)據(jù)處理方法及裝置,以解決人工檢測(cè)網(wǎng)頁(yè)過濾問題所存在的檢測(cè)不及時(shí)、效率低的問 ...
【技術(shù)保護(hù)點(diǎn)】
一種網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,包括:獲取待測(cè)網(wǎng)頁(yè),以及所述待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)地址對(duì)應(yīng)的預(yù)設(shè)網(wǎng)頁(yè);分別在所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域設(shè)置第一標(biāo)識(shí);判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配;如果所述預(yù)設(shè)網(wǎng)頁(yè)與待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域相匹配,則判定所述待測(cè)網(wǎng)頁(yè)不存在過濾問題,否則判定所述待測(cè)網(wǎng)頁(yè)存在過濾問題。
【技術(shù)特征摘要】
1.一種網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,包括: 獲取待測(cè)網(wǎng)頁(yè),以及所述待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)地址對(duì)應(yīng)的預(yù)設(shè)網(wǎng)頁(yè); 分別在所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域設(shè)置第一標(biāo)識(shí); 判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配; 如果所述預(yù)設(shè)網(wǎng)頁(yè)與待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域相匹配,則判定所述待測(cè)網(wǎng)頁(yè)不存在過濾問題,否則判定所述待測(cè)網(wǎng)頁(yè)存在過濾問題。2.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于, 所述第一標(biāo)識(shí)為預(yù)設(shè)顏色,所述分別在所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域設(shè)置第一標(biāo)識(shí),包括:分別將所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域的背景顏色設(shè)置為預(yù)設(shè)顏色;當(dāng)所述實(shí)際內(nèi)容為文字時(shí),設(shè)置所述文字的顏色為所述預(yù)設(shè)顏色;當(dāng)所述實(shí)際內(nèi)容為圖片時(shí),刪除所述圖片;或者, 所述第一標(biāo)識(shí)為邊框,所述分別在所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域設(shè)置第一標(biāo)識(shí),包括:分別在所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域設(shè)置邊框;其中,所述邊框與所述存在實(shí)際內(nèi)容的區(qū)域的邊界重合。3.根據(jù)權(quán)利要求1所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配,包括: 分別計(jì)算所述預(yù)設(shè)網(wǎng)頁(yè) 中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域的第一總面積,以及所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域的第二總面積; 計(jì)算所述第一總面積和第二總面積之間的第三比值; 判斷所述第三比值是否在預(yù)設(shè)范圍內(nèi); 如果所述第三比值在預(yù)設(shè)范圍內(nèi),則判定所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域相匹配,否則判定所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域不匹配。4.根據(jù)權(quán)利要求3所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,在判定所述待測(cè)網(wǎng)頁(yè)存在過濾問題后,所述方法還包括: 如果所述第三比值小于所述預(yù)設(shè)范圍的最小值,則判定所述待測(cè)網(wǎng)頁(yè)存在過濾失效; 如果所述第三比值大于所述預(yù)設(shè)范圍的最大值,則判定所述待測(cè)網(wǎng)頁(yè)存在誤過濾。5.根據(jù)權(quán)利要求2所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,當(dāng)所述第一標(biāo)識(shí)為預(yù)設(shè)顏色時(shí),判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配,包括: 比較所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中與同一預(yù)設(shè)比較點(diǎn)相對(duì)應(yīng)的區(qū)域的顏色是否相同; 計(jì)算所述顏色比較結(jié)果為不相同的預(yù)設(shè)比較點(diǎn)的個(gè)數(shù)與預(yù)設(shè)比較點(diǎn)的總個(gè)數(shù)之間的第一比值; 判斷所述第一比值是否小于第一預(yù)設(shè)比值; 如果所述第一比值小于第一預(yù)設(shè)比值,則判定所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域相匹配,否則判定所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域不匹配。6.根據(jù)權(quán)利要求5所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,在判定所述待測(cè)網(wǎng)頁(yè)存在過濾問題后,所述方法還包括:判斷所述待測(cè)網(wǎng)頁(yè)中,顏色比較結(jié)果為不同的預(yù)設(shè)比較點(diǎn)對(duì)應(yīng)的第一區(qū)域的顏色,是否與所述預(yù)設(shè)顏色相同; 如果所述第一區(qū)域的顏色與預(yù)設(shè)顏色相同,則判定所述第一區(qū)域存在過濾失效,否則判定所述第一區(qū)域存在誤過濾。7.根據(jù)權(quán)利要求2所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,當(dāng)所述第一標(biāo)識(shí)為邊框時(shí),判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配,包括: 計(jì)算所述預(yù)設(shè)網(wǎng)頁(yè)中設(shè)置有所述邊框的區(qū)域和待測(cè)網(wǎng)頁(yè)中設(shè)置有所述邊框的區(qū)域不重疊的部分的面積,與所述預(yù)設(shè)網(wǎng)頁(yè)中設(shè)置有所述邊框的區(qū)域的總面積之間的第二比值; 判斷所述第二比值是否小于第二預(yù)設(shè)比值; 如果所述第二比值小于第二預(yù)設(shè)比值,則判定所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域相匹配,否則判定所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域不匹配。8.根據(jù)權(quán)利要求7所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,在判定所述待測(cè)網(wǎng)頁(yè)存在過濾問題后,所述方法還包括: 當(dāng)所述預(yù)設(shè)網(wǎng)頁(yè)中,與所述待測(cè) 頁(yè)中設(shè)置有所述邊框的第一區(qū)域相對(duì)應(yīng)的區(qū)域未設(shè)置所述邊框時(shí),判定所述第一區(qū)域存在過濾失效; 當(dāng)所述預(yù)設(shè)網(wǎng)頁(yè)中,與所述待測(cè)網(wǎng)頁(yè)中未設(shè)置所述邊框的第二區(qū)域相對(duì)應(yīng)的區(qū)域設(shè)置有所述邊框時(shí),判定所述第二區(qū)域存在誤過濾。9.根據(jù)權(quán)利要求1至8任一項(xiàng)所述的網(wǎng)頁(yè)數(shù)據(jù)處理方法,其特征在于,在判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配之前,所述網(wǎng)頁(yè)數(shù)據(jù)處理方法還包括: 分別將所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)劃分為一一對(duì)應(yīng)的多個(gè)比較區(qū)域; 相應(yīng)的,所述判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配,包括: 分別判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)之間相對(duì)應(yīng)的每對(duì)比較區(qū)域中設(shè)置有所述第一標(biāo)識(shí)的區(qū)域是否相匹配。10.一種網(wǎng)頁(yè)數(shù)據(jù)處理裝置,其特征在于,包括: 網(wǎng)頁(yè)獲取單元,用于分別獲取待測(cè)網(wǎng)頁(yè),以及所述待測(cè)網(wǎng)頁(yè)的網(wǎng)頁(yè)地址對(duì)應(yīng)的預(yù)設(shè)網(wǎng)頁(yè); 網(wǎng)頁(yè)標(biāo)記單元,用于分別在所述預(yù)設(shè)網(wǎng)頁(yè)和待測(cè)網(wǎng)頁(yè)中存在實(shí)際內(nèi)容的區(qū)域設(shè)置第一標(biāo)識(shí); 網(wǎng)頁(yè)匹配單元,用于判斷所述預(yù)設(shè)網(wǎng)頁(yè)與所述待測(cè)網(wǎng)頁(yè)中設(shè)置有所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王曉振,
申請(qǐng)(專利權(quán))人:廣州市動(dòng)景計(jì)算機(jī)科技有限公司,
類型:發(fā)明
國(guó)別省市:廣東;44
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。