• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    候選頁面集合的生成方法及裝置制造方法及圖紙

    技術(shù)編號:15690875 閱讀:55 留言:0更新日期:2017-06-24 03:37
    本發(fā)明專利技術(shù)提供一種候選頁面集合的生成方法及裝置,該生成方法包括:抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。通過本發(fā)明專利技術(shù)生成的候選頁面集合,在能夠保證候選頁面的時效性的同時,也能保證候選頁面的召回率及準確率,且在保證召回的同時規(guī)模只有百萬量級,可有效解決相關(guān)技術(shù)中網(wǎng)絡蜘蛛所需處理的數(shù)據(jù)量過大、需要消耗大量的時間的問題,從而提高網(wǎng)絡蜘蛛抓取網(wǎng)頁的效率。

    Method and device for generating candidate page set

    The present invention provides a method and a device for generating candidate set of pages, including the generation method: capture and analyze multiple web pages, to obtain attribute information and text information of each page; according to the text information each page is divided into several categories according to the attribute of each page of the letter; separately determine the \meet the candidate page the default set of conditions; each page will meet the preset conditions of the set of candidate pages are stored in categories, each category of the set of candidate pages. The candidate pages generated by the invention set, can ensure the timeliness of the candidate pages at the same time, can also ensure that the recall rate of candidate pages and accuracy, and ensure the recall at the same time scale of only millions of magnitude, which can effectively solve the problem of network spider technology required for processing large amounts of data in, need to consume a large amount of the problem of time, so as to improve the efficiency of network spider crawling.

    【技術(shù)實現(xiàn)步驟摘要】
    候選頁面集合的生成方法及裝置
    本專利技術(shù)是關(guān)于信息搜索技術(shù),具體地,是關(guān)于一種候選頁面集合的生成方法及裝置。
    技術(shù)介紹
    搜索引擎對于互聯(lián)網(wǎng)上出現(xiàn)的實時熱點需要第一時間發(fā)現(xiàn)和收錄。搜索引擎蜘蛛有一個龐大的URL(UniformResourceLocator,統(tǒng)一資源定位符)庫,規(guī)模達到數(shù)千億甚至上萬億量級。網(wǎng)絡蜘蛛所有的抓取都從這個URL庫出發(fā),即從URL庫中挑選出一批URL,對這批URL實施抓取,從中發(fā)現(xiàn)新鏈接再添加到URL庫中。熱點鏈接就是從中被發(fā)現(xiàn)并通過下次選取抓取和收錄的。但是,因為網(wǎng)絡蜘蛛所處理的數(shù)據(jù)量過于龐大,需要消耗大量的時間,把全部鏈接挑一遍再抓一遍很難保證所有的熱點都能在第一時間被發(fā)現(xiàn)和收錄。因此,如何能使網(wǎng)絡蜘蛛找出一個精簡但又覆蓋完整的候選頁面集合,是目前亟待解決的問題。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)實施例的主要目的在于提供一種候選頁面集合的生成方法及裝置,以克服上述問題,從而提高網(wǎng)頁抓取的效率。為了實現(xiàn)上述目的,本專利技術(shù)實施例提供一種候選頁面集合的生成方法,該生成方法包括:抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。在一實施例中,在將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合之后,該生成方法還包括:判斷各類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當候選頁面集合中的網(wǎng)頁滿足停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。進一步地,該生成方法還包括:當候選頁面集合中的網(wǎng)頁不滿足停止條件時,返回抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息。在一實施例中,上述的根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件,具體包括:將每個網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定網(wǎng)頁中新鏈接的數(shù)量;判斷新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。進一步地,判斷新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件,具體包括:判斷新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則新鏈接的數(shù)量滿足候選頁面集合中新鏈接數(shù)量的條件。在一實施例中,上述的根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件,進一步包括:根據(jù)一索引篩選條件確定新鏈接中符合索引條件的鏈接的數(shù)量;判斷新鏈接中符合索引條件的鏈接的數(shù)量是否滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。進一步地,判斷新鏈接中符合索引條件的鏈接的數(shù)量是否滿足候選頁面集合中符合索引條件鏈接數(shù)量的條,具體包括:判斷新鏈接中符合索引條件的鏈接的數(shù)量是否大于或等于一第二預設數(shù)值;如果是,則新鏈接中符合索引條件的鏈接的數(shù)量滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。在一實施例中,上述的根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件,進一步包括:將新鏈接中符合索引條件的鏈接按照URL進行歸類;判斷每一類URL對應的網(wǎng)頁中的新鏈接是否滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接的條件。進一步地,判斷每一類URL對應的網(wǎng)頁中的新鏈接是否滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接的條件,具體包括:判斷每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量是否大于或等于一第三預設數(shù)值,且每一類URL對應的網(wǎng)頁中符合索引條件的新鏈接的數(shù)量是否大于或等于一第四預設數(shù)值;如果是,則每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接數(shù)量的條件,則各初步篩選網(wǎng)頁滿足預設的候選頁面集合條件。本專利技術(shù)實施例還提供一種候選頁面集合的生成裝置,該生成裝置包括:網(wǎng)頁抓取單元,用于抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息;類別劃分單元,用于根據(jù)正文信息將各網(wǎng)頁劃分為多個類別;候選頁面集合條件判斷單元,用于根據(jù)各網(wǎng)頁的屬性信息分別判斷各網(wǎng)頁是否滿足預設的候選頁面集合條件;候選頁面集合生成單元,用于將滿足預設的候選頁面集合條件的各網(wǎng)頁按照類別進行存儲,生成各類別的候選頁面集合。在一實施例中,上述的生成裝置還包括:停止條件判斷單元,用于判斷各類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當候選頁面集合中的網(wǎng)頁滿足停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。在一實施例中,上述的停止條件判斷單元還用于:當候選頁面集合中的網(wǎng)頁不滿足停止條件時,觸發(fā)網(wǎng)頁抓取單元,抓取并分析多個網(wǎng)頁,分別獲取各網(wǎng)頁的屬性信息及正文信息。在一實施例中,上述的候選頁面集合條件判斷單元具體包括:新鏈接確定模塊,用于將每個網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定網(wǎng)頁中新鏈接的數(shù)量;新鏈接條件判斷模塊,用于判斷新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。在一實施例中,上述的新鏈接條件判斷模塊具體用于:判斷新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則新鏈接的數(shù)量滿足候選頁面集合中新鏈接數(shù)量的條件。在一實施例中,上述的候選頁面集合條件判斷單元進一步包括:符合索引條件鏈接確定模塊,用于根據(jù)一索引篩選條件確定新鏈接中符合索引條件的鏈接的數(shù)量;索引條件判斷模塊,用于判斷新鏈接中符合索引條件的鏈接的數(shù)量是否滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。在一實施例中,上述的索引條件判斷模塊具體用于:判斷新鏈接中符合索引條件的鏈接的數(shù)量是否大于或等于一第二預設數(shù)值;如果是,則新鏈接中符合索引條件的鏈接的數(shù)量滿足候選頁面集合中符合索引條件鏈接數(shù)量的條件。在一實施例中,上述的候選頁面集合條件判斷單元進一步包括:鏈接歸類模塊,用于將新鏈接中符合索引條件的鏈接按照URL進行歸類;持續(xù)產(chǎn)生鏈接條件判斷模塊,用于判斷每一類URL對應的網(wǎng)頁中的新鏈接是否滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接的條件。在一實施例中,上述的持續(xù)產(chǎn)生鏈接條件判斷模塊具體用于:判斷每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量是否大于或等于一第三預設數(shù)值,且每一類URL對應的網(wǎng)頁中符合索引條件的新鏈接的數(shù)量是否大于或等于一第四預設數(shù)值;如果是,則每一類URL對應的網(wǎng)頁中的新鏈接的數(shù)量滿足候選頁面集合中持續(xù)產(chǎn)生新鏈接數(shù)量的條件,則各初步篩選網(wǎng)頁滿足預設的候選頁面集合條件。本專利技術(shù)實施例的有益效果在于,通過本專利技術(shù)生成的候選頁面集合,在能夠保證候選頁面的時效性的同時,也能保證候選頁面的召回率及準確率,且在保證召回的同時規(guī)模只有百萬量級,可有效解決相關(guān)技術(shù)中網(wǎng)絡蜘蛛所需處理的數(shù)據(jù)量過大、需要消耗大量的時間的問題,從而提高網(wǎng)絡蜘蛛抓取網(wǎng)頁的效率。附圖說明為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為根據(jù)本專利技術(shù)實施例的候選頁面集合的生成方法的流程圖;圖2為根據(jù)本專利技術(shù)另一實施例的候選頁面集合的生成方法的流程圖;圖3為根據(jù)本專利技術(shù)實施例的候選頁面集合的生成裝置的結(jié)構(gòu)示意圖;圖4為根據(jù)本專利技術(shù)實施例的候選頁面集合條件判斷單元300的結(jié)構(gòu)示意圖;圖5為根據(jù)本專利技術(shù)另一實施例的候選頁面集合條件判斷單元300本文檔來自技高網(wǎng)...
    候選頁面集合的生成方法及裝置

    【技術(shù)保護點】
    一種候選頁面集合的生成方法,其特征在于,所述的生成方法包括:步驟a:抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息;步驟b:根據(jù)所述正文信息將各所述網(wǎng)頁劃分為多個類別;步驟c:根據(jù)各所述網(wǎng)頁的屬性信息分別判斷各所述網(wǎng)頁是否滿足預設的候選頁面集合條件;步驟d:將滿足所述預設的候選頁面集合條件的各所述網(wǎng)頁按照所述類別進行存儲,生成各所述類別的候選頁面集合。

    【技術(shù)特征摘要】
    1.一種候選頁面集合的生成方法,其特征在于,所述的生成方法包括:步驟a:抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息;步驟b:根據(jù)所述正文信息將各所述網(wǎng)頁劃分為多個類別;步驟c:根據(jù)各所述網(wǎng)頁的屬性信息分別判斷各所述網(wǎng)頁是否滿足預設的候選頁面集合條件;步驟d:將滿足所述預設的候選頁面集合條件的各所述網(wǎng)頁按照所述類別進行存儲,生成各所述類別的候選頁面集合。2.根據(jù)權(quán)利要求1所述的候選頁面集合的生成方法,其特征在于,在所述步驟d之后,所述的生成方法還包括:步驟e:判斷各所述類別的候選頁面集合中的網(wǎng)頁是否滿足停止條件;當所述候選頁面集合中的網(wǎng)頁滿足所述停止條件時,停止抓取網(wǎng)頁,并生成最終的候選頁面集合。3.根據(jù)權(quán)利要求2所述的候選頁面集合的生成方法,其特征在于,所述的生成方法還包括:當所述候選頁面集合中的網(wǎng)頁不滿足所述停止條件時,返回所述步驟a,抓取并分析多個網(wǎng)頁,分別獲取各所述網(wǎng)頁的屬性信息及正文信息。4.根據(jù)權(quán)利要求1至3中任一項所述的候選頁面集合的生成方法,其特征在于,所述步驟c具體包括:將每個所述網(wǎng)頁的鏈接與已存儲網(wǎng)頁的鏈接進行比對,以確定所述網(wǎng)頁中新鏈接的數(shù)量;判斷所述新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件。5.根據(jù)權(quán)利要求4所述的候選頁面集合的生成方法,其特征在于,判斷所述新鏈接的數(shù)量是否滿足候選頁面集合中新鏈接數(shù)量的條件,具體包括:判斷所述新鏈接的數(shù)量是否大于或等于一第一預設數(shù)值;如果是,則所述新鏈接的數(shù)量滿足所述候選頁面集合中新鏈接數(shù)量的條件。6.根據(jù)權(quán)利要求4所述的候選頁面集合的生成方法,其特征在于,所述步驟c進一步包括:根據(jù)一索引篩選條件確定所述新鏈接中符合索引條件的鏈接的數(shù)量;判斷所述新鏈接中符合索引條件的鏈...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:魏少俊
    申請(專利權(quán))人:北京奇虎科技有限公司奇智軟件北京有限公司
    類型:發(fā)明
    國別省市:北京,11

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产AV无码专区亚洲AVJULIA| 无码中文在线二区免费| 男男AV纯肉无码免费播放无码| 色国产色无码色欧美色在线| 在线无码午夜福利高潮视频| 亚洲色偷拍另类无码专区| 亚洲成在人线在线播放无码| 国产成人无码午夜视频在线观看 | 亚洲欧洲精品无码AV| 一本久道综合在线无码人妻| 中文无码vs无码人妻| 精品久久久久久中文字幕无码| 久久久国产精品无码免费专区| 精品韩国亚洲av无码不卡区| 久久久久久亚洲Av无码精品专口 | 亚洲av纯肉无码精品动漫| 久久中文字幕无码专区| 亚洲av无码一区二区三区天堂| 国产热の有码热の无码视频| 国产福利电影一区二区三区久久老子无码午夜伦不 | 无码人妻久久久一区二区三区| 一级片无码中文字幕乱伦| 无码人妻精品中文字幕免费东京热| 中文字幕丰满伦子无码| 人妻老妇乱子伦精品无码专区 | 亚洲最大天堂无码精品区| 国产50部艳色禁片无码| 中文字幕在线无码一区 | 精品高潮呻吟99av无码视频 | 亚洲AV无码一区二区乱子仑 | 无码国模国产在线观看| 99热门精品一区二区三区无码 | 亚洲AV无码成人精品区日韩| 精品高潮呻吟99av无码视频| 97久久精品无码一区二区天美| 无码H肉动漫在线观看| 少妇精品无码一区二区三区| 无码毛片视频一区二区本码| 小13箩利洗澡无码视频网站 | 国产∨亚洲V天堂无码久久久| 国产成人无码综合亚洲日韩|