• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網頁檢測方法和裝置制造方法及圖紙

    技術編號:15690891 閱讀:300 留言:0更新日期:2017-06-24 03:39
    本申請公開了一種網頁檢測方法和裝置。其中,該方法包括:對目標網站在預設時間段內的訪問日志進行解析,得到在預設時間段內多個被訪問網頁;從多個被訪問網頁中確定出目標網頁,目標網頁為在預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索目標網頁的統一資源定位符,得到搜索結果;對搜索結果進行解析,在解析得到目標網頁的發布時間時,判斷發布時間是否處于預設時間段內;以及在判斷出發布時間處于預設時間段內時,確定目標網頁為在預設時間段內更新的網頁。本申請解決了由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。

    Method and device for detecting web pages

    The present invention discloses a method and a device for detecting web pages. Among them, the method includes: analyzing the target site access log for a preset period of time, in a preset period of time, more access to web pages; from multiple access to determine target web page, the target page to be not accessed before a preset period of time \; the search target\ uniform resource locator the match is arranged in advance in the search engine, search results; analysis of the search results, get the target web release time when parsing, judge whether published in a preset period of time; and when it is determined that the release time in a preset period of time, to determine the target page for updates at a preset time \. The application solves the technical problem that the detection process of the updating webpage is low due to the large number of the detected pages.

    【技術實現步驟摘要】
    網頁檢測方法和裝置
    本申請涉及互聯網領域,具體而言,涉及一種網頁檢測方法和裝置。
    技術介紹
    在互聯網領域,網站上的網頁會不斷更新,而網站更新量也是評價網站績效的一項重要指標。這里的網站更新量指的是在一定時間內網站更新的網頁的數量。在統計網站更新量的過程中,如何確定哪些網頁是網站在一定時間內更新的網頁是一個難以解決的問題。目前,通常是通過爬蟲程序爬取網站上的網頁,然后逐個網頁分析是否為更新的網頁。然而,如果要統計更新量的網站越大,每次爬取的網頁數就越多,而這些網頁中大部分不是更新的網頁,使得需要檢測的網頁數量大,導致更新網頁的檢測過程效率低。針對上述的問題,目前尚未提出有效的解決方案。
    技術實現思路
    本申請實施例提供了一種網頁檢測方法和裝置,以至少解決由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題。根據本申請實施例的一個方面,提供了一種網頁檢測方法,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。進一步地,在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果包括:在預先設置的多個搜索引擎中搜索所述目標網頁的統一資源定位符,得到與多個搜索引擎一一對應的多個搜索結果;對所述搜索結果進行解析包括:分別對所述多個搜索結果進行解析,其中,在解析出一個發布時間時,將所述一個發布時間作為所述目標網頁的發布時間;在解析出多個發布時間時,將多個發布時間中時間最早的發布時間作為所述目標網頁的發布時間。進一步地,在對所述搜索結果進行解析之后,所述方法還包括:在未解析到所述目標網頁的發布時間時,爬取所述搜索引擎收錄所述目標網頁的收錄時間;判斷所述收錄時間是否處于所述預設時間段內;在判斷出所述收錄時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁;在判斷出所述收錄時間處于所述預設時間段之外時,確定所述目標網頁不是在所述預設時間段內更新的網頁。進一步地,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。進一步地,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;將未查詢到的哈希值對應的網頁作為所述目標網頁。根據本申請實施例的另一方面,還提供了一種網頁檢測裝置,包括:解析單元,用于對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;第一確定單元,用于從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;搜索單元,用于在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;第一判斷單元,用于對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及第二確定單元,用于在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。進一步地,所述搜索單元具體用于在預先設置的多個搜索引擎中搜索所述目標網頁的統一資源定位符,得到與多個搜索引擎一一對應的多個搜索結果;所述第一判斷單元包括:解析模塊,用于分別對所述多個搜索結果進行解析,其中,在解析出一個發布時間時,將所述一個發布時間作為所述目標網頁的發布時間;在解析出多個發布時間時,將多個發布時間中時間最早的發布時間作為所述目標網頁的發布時間。進一步地,所述裝置還包括:爬取單元,用于在對所述搜索結果進行解析之后,在未解析到所述目標網頁的發布時間時,爬取所述搜索引擎收錄所述目標網頁的收錄時間;第二判斷單元,用于判斷所述收錄時間是否處于所述預設時間段內;第三確定個單元,用于在判斷出所述收錄時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁;在判斷出所述收錄時間處于所述預設時間段之外時,確定所述目標網頁不是在所述預設時間段內更新的網頁。進一步地,所述第一確定單元具體用于逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。進一步地,所述第一確定單元包括:編碼模塊,用于對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;查詢模塊,用于在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源定位符的哈希值;確定模塊,用于將未查詢到的哈希值對應的網頁作為所述目標網頁。根據本申請實施例,通過對目標網站在預設時間段內的訪問日志進行解析,得到在預設時間段內多個被訪問網頁;從多個被訪問網頁中確定出目標網頁,目標網頁為在預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索目標網頁的統一資源定位符,得到搜索結果;對搜索結果進行解析,在解析得到目標網頁的發布時間時,判斷發布時間是否處于預設時間段內,在判斷出發布時間處于預設時間段內時,確定目標網頁為在預設時間段內更新的網頁。由于僅檢測預設時間段內的被訪問網頁,相對于現有技術中爬取網站的所有網頁而言,其網頁的數量大大減少,解決了由于檢測的網頁數量大造成更新網頁的檢測過程效率低的技術問題,提高了更新網頁的檢測效率。附圖說明此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:圖1是根據本申請實施例的網頁檢測方法的流程圖;圖2是根據本申請實施例的網頁檢測裝置的示意圖。具體實施方式為了使本
    的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申本文檔來自技高網
    ...
    網頁檢測方法和裝置

    【技術保護點】
    一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。

    【技術特征摘要】
    1.一種網頁檢測方法,其特征在于,包括:對目標網站在預設時間段內的訪問日志進行解析,得到在所述預設時間段內多個被訪問網頁;從所述多個被訪問網頁中確定出目標網頁,所述目標網頁為在所述預設時間段之前未被訪問的網頁;在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果;對所述搜索結果進行解析,在解析得到所述目標網頁的發布時間時,判斷所述發布時間是否處于所述預設時間段內;以及在判斷出所述發布時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁。2.根據權利要求1所述的方法,其特征在于,在預先設置的搜索引擎中搜索所述目標網頁的統一資源定位符,得到搜索結果包括:在預先設置的多個搜索引擎中搜索所述目標網頁的統一資源定位符,得到與多個搜索引擎一一對應的多個搜索結果;對所述搜索結果進行解析包括:分別對所述多個搜索結果進行解析,其中,在解析出一個發布時間時,將所述一個發布時間作為所述目標網頁的發布時間;在解析出多個發布時間時,將多個發布時間中時間最早的發布時間作為所述目標網頁的發布時間。3.根據權利要求1或2所述的方法,其特征在于,在對所述搜索結果進行解析之后,所述方法還包括:在未解析到所述目標網頁的發布時間時,爬取所述搜索引擎收錄所述目標網頁的收錄時間;判斷所述收錄時間是否處于所述預設時間段內;在判斷出所述收錄時間處于所述預設時間段內時,確定所述目標網頁為在所述預設時間段內更新的網頁;在判斷出所述收錄時間處于所述預設時間段之外時,確定所述目標網頁不是在所述預設時間段內更新的網頁。4.根據權利要求1所述的方法,其特征在于,從所述多個被訪問網頁中確定出目標網頁包括:逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁。5.根據權利要求4所述的方法,其特征在于,逐條將所述多個被訪問網頁的統一資源定位符與在所述預設時間段之前記錄的網頁的統一資源定位符進行匹配,在所述多個被訪問網頁中被訪問網頁的統一資源定位符未匹配到在所述預設時間段之前記錄的所述目標網站上的網頁的統一資源定位符時,將該未匹配到的被訪問網頁作為所述目標網頁包括:對所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符進行哈希編碼,得到所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值;在預先設置的布隆過濾器中查詢所述多個被訪問網頁中每一個被訪問網頁的統一資源定位符的哈希值,其中,所述布隆過濾器中存儲有所述目標網站上在所述預設時間段之前發布的網頁的統一資源...

    【專利技術屬性】
    技術研發人員:李新國
    申請(專利權)人:北京國雙科技有限公司
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品亚洲成在人线AV无码| 噜噜综合亚洲AV中文无码| 成人免费无码大片a毛片| 最新亚洲人成无码网站| 国产AV无码专区亚洲AV毛网站 | 亚洲天然素人无码专区| 无码中文人妻在线一区二区三区| 无码av不卡一区二区三区| 无码少妇一区二区性色AV| 自慰系列无码专区| 亚洲欧洲无码一区二区三区| 日韩精品无码免费专区午夜| 亚洲AV无码之国产精品| 久久久无码精品国产一区| 中文字幕无码精品亚洲资源网 | 久久久久久国产精品无码超碰| 午夜成人无码福利免费视频| 亚洲成无码人在线观看| 亚洲av永久无码精品漫画| 国产成人无码a区在线视频| 亚洲a∨无码精品色午夜| 精品一区二区三区无码免费视频 | 中文无码字慕在线观看| 亚洲精品无码国产| 久久久久亚洲av成人无码电影| 人妻少妇精品无码专区漫画| 中文无码精品A∨在线观看不卡| 中文无码喷潮在线播放| 人妻少妇乱子伦无码视频专区 | 人妻少妇精品无码专区二区 | 人妻夜夜添夜夜无码AV| 亚洲国产精品成人精品无码区| 亚洲a无码综合a国产av中文| 精品无码一区二区三区电影| 亚洲va中文字幕无码久久 | 亚洲AV无码不卡在线观看下载 | 国产午夜鲁丝无码拍拍| 无码一区二区三区| 成人免费无码大片A毛片抽搐| 国产AV无码专区亚洲AV手机麻豆| 亚洲国产精品无码av|