The present invention discloses a method and a device for detecting web pages. Among them, the method includes: analyzing the target site access log for a preset period of time, in a preset period of time, more access to web pages; from multiple access to determine target web page, the target page to be not accessed before a preset period of time \; the search target\ uniform resource locator the match is arranged in advance in the search engine, search results; analysis of the search results, get the target web release time when parsing, judge whether published in a preset period of time; and when it is determined that the release time in a preset period of time, to determine the target page for updates at a preset time \. The application solves the technical problem that the detection process of the updating webpage is low due to the large number of the detected pages.
【技術實現步驟摘要】
網頁檢測方法和裝置
本申請涉及互聯網領域,具體而言,涉及一種網頁檢測方法和裝置。
技術介紹
在互聯網領域,網站上的網頁會不斷更新,而網站更新量也是評價網站績效的一項重要指標。這里的網站更新量指的是在一定時間內網站更新的網頁的數量。在統計網站更新量的過程中,如何確定哪些網頁是網站在一定時間內更新的網頁是一個難以解決的問題。目前,通常是通過爬蟲程序爬取網站上的網頁,然后逐個網頁分析是否為更新的網頁。然而,如果要統計更新量的網站越大,每次爬取的網頁數就越多,而這些網頁中大部分不是更新的網頁,使得需要檢測的網頁數量大,導致更新網頁的檢測過程效率低。針對上述的問題,目前尚未提出有效的解決方案。
技術實現思路
本申請實施例提供了一種網頁檢測方法和裝置,以至少解決由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。根據本申請實施例的一個方面,提供了一種網頁檢測方法,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。進一步地,在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果包括:在預先設置的多個搜索引擎中搜索所述目標網頁的統一資源定位符,得到與多個搜索引擎一一對 ...
【技術保護點】
一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。
【技術特征摘要】
1.一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。2.根據權利要求1所述的方法,其特征在于,在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果包括:在預先設置的多個搜索引擎中搜索所述目標網頁的統一資源定位符,得到與多個搜索引擎一一對應的多個搜索結果;對所述搜索結果進行解析包括:分別對所述多個搜索結果進行解析,其中,在解析出一個發布時間時,將所述一個發布時間作為所述目標網頁的發布時間;在解析出多個發布時間時,將多個發布時間中時間最早的發布時間作為所述目標網頁的發布時間。3.根據權利要求1或2所述的方法,其特征在于,在對所述搜索結果進行解析之后,所述方法還包括:在未解析到所述目標網頁的發布時間時,爬取所述搜索引擎收錄所述目標網頁的收錄時間;判斷所述收錄時間是否處于所述預設時間段內;在判斷出所述收錄時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁;在判斷出所述收錄時間處于所述預設時間段之外時,確定所述目標網頁不是在所述預設時間段內更新的網頁。4.根據權利要求1所述的方法,其特征在于,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。5.根據權利要求4所述的方法,其特征在于,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源...
【專利技術屬性】
技術研發人員:李新國,
申請(專利權)人:北京國雙科技有限公司,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。