• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    網頁搜集推薦方法和裝置制造方法及圖紙

    技術編號:13306760 閱讀:98 留言:0更新日期:2016-07-10 02:02
    本發明專利技術實施例提供了網頁搜集推薦方法和裝置,所述方法包括:獲取與關鍵詞相關的多個種子網頁;確定出種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;確定出每個擴展網頁與語義結構之間的相似度;根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,直到達到預設的網頁獲取終止條件;對最后一個周期更新的各種子網頁進行排序和推薦。利用本發明專利技術實施例,可以更加準確全面地為用戶搜集和推薦網頁,便于用戶查找到需要的網頁,可以提升用戶的體驗。

    【技術實現步驟摘要】

    本專利技術涉及網絡數據采集
    ,具體而言,本專利技術涉及一種網頁搜集推薦方法和裝置。
    技術介紹
    隨著互聯網的迅猛發展,網絡上的信息量日益增多。用戶通常利用搜索引擎在互聯網中查找需要的網頁信息。搜索引擎(SearchEngine)預先根據指定的策略、利用網絡爬蟲從互聯網上抓取網頁,接收到用戶輸入的關鍵詞后,計算關鍵詞與預先抓取的各網頁之間的相關度,選擇相關度較高的網頁推薦并展示給用戶。目前,網絡爬蟲主要包括傳統爬蟲和主題爬蟲。一種利用傳統爬蟲的網頁搜集推薦方法主要包括:抓取一個或若干個初始網頁后,從初始網頁開始,獲得當前網頁上的URL(UniformResourceLocator,統一資源定位器),根據獲得的URL抓取網頁;在抓取網頁的過程中,不斷從當前網頁上抽取新的URL,根據新的URL繼續抓取網頁,直到滿足預設的條件停止抓取網頁,并存儲已抓取到的網頁;以在互聯網上搜集盡可能多的網頁推薦給用戶。然而,利用上述方法搜集推薦的眾多網頁中,通常包含大量用戶不需要的網頁,例如噪聲網頁,網頁搜集推薦的準確性較低、效率低下。導致用戶需要從大量的網頁中,人工篩選所需要的網頁,造成用戶獲取其所需要的網頁的效率低下,用戶體驗不佳。主題爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的網頁。與傳統爬蟲不同,主題爬蟲并不追求大的網頁覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。一種利用主題爬蟲的網頁搜集推薦方法通常包括:根據用戶輸入的關鍵詞,抓取一個或若干個網頁作為主題的種子網頁(或確定主題);抓取其它網頁及其鏈接,根據指定的網頁分析算法計算其它網頁與種子網頁(或主題)的相似度,過濾與種子網頁(或主題)相似度較低的鏈接,保留與種子網頁(或主題)相似度較高的鏈接并將其放入等待抓取的URL隊列;然后,根據指定的搜索策略從隊列中選擇下一步要抓取的網頁URL,并重復上述過程,直到達到預設的條件,停止選擇URL并抓取對應的網頁進行存儲,并將存儲的網頁推薦給用戶。然而,利用主題爬蟲的網頁搜集推薦方法通常會出現遺漏用戶需要的網頁的問題,造成用戶查找不全所需要的網頁,降低了用戶的體驗。綜上,現有的網頁搜集推薦方法存在網頁推薦準確性較低、效率低下、或者容易遺漏網頁的缺陷。
    技術實現思路
    本專利技術針對現有的網頁搜集方式的缺點,提出一種網頁搜集推薦方法和裝置,用以解決現有技術存在網頁搜集推薦準確性較低、或效率低下,或者容易遺漏網頁的問題,以提升網頁推薦的準確性或效率,或降低遺漏網頁的幾率。本專利技術的實施例根據一個方面,提供了一種網頁搜集推薦方法,包括:獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;確定出每個擴展網頁與所述語義結構之間的相似度;根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,直到達到預設的網頁獲取終止條件;對最后一個周期更新的各種子網頁進行排序和推薦。本專利技術的實施例根據另一個方面,還提供了一種網頁搜集推薦裝置,包括:種子網頁獲取模塊,用于獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;語義結構創建模塊,用于根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;擴展網頁處理模塊,用于獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;確定出每個擴展網頁與所述語義結構之間的相似度;以及周期性地根據更新的種子網頁更新擴展網頁,直到達到預設的網頁獲取終止條件;種子網頁更新模塊,用于根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;以及周期性地根據進化的語義結構更新種子網頁;語義結構進化模塊,用于周期性地根據更新的種子網頁進化語義結構;網頁推薦模塊,用于對最后一個周期更新的各種子網頁進行排序和推薦。本專利技術實施例中,獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;確定出每個擴展網頁與語義結構之間的相似度;根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,直到達到預設的網頁獲取終止條件;對最后一個周期更新的各種子網頁進行排序和推薦;可以使得推薦的網頁在語義上與用戶輸入的關鍵詞具有較高的相關性,提升網頁推薦的準確性和效率;并且語義結構實際上是包括了與關鍵詞的語義相關的詞語和/或短語,例如關鍵詞的同義詞或近義詞,因此,利用本專利技術實施例可以搜集到不包含關鍵詞但是包含其同義詞或近義詞的網頁進行推薦,從而大大降低了遺漏網頁的幾率,便于用戶查找到需要的網頁,提升了用戶的體驗。而且,本專利技術實施例中,周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁。進而本專利技術實施例,可以逐步進化的語義結構,并逐步根據進化的語義結構更新種子網頁;進一步提升最后一個周期更新的各種子網頁與進化的語義結構之間的相似度,從而提升網頁搜集推薦的準確性和效率,進一步降低網頁遺漏的幾率,便于用戶查找到需要的網頁,提升了用戶的體驗。本專利技術附加的方面和優點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:圖1為本專利技術實施例的網頁搜集推薦方法的流程示意圖;圖2為本專利技術實施例的語義結構的特例的示意圖;圖3為本專利技術實施例的網頁搜集推薦裝置的內部結構的框架示意圖。具體實施方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本專利技術,而不能解釋為對本專利技術的限制。本
    技術人員可以理解,除非特意聲明,這里使用的單數形式“一”、“一個”、本文檔來自技高網
    ...

    【技術保護點】
    一種網頁搜集推薦方法,其特征在于,包括:獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;確定出每個擴展網頁與所述語義結構之間的相似度;根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,直到達到預設的網頁獲取終止條件;對最后一個周期更新的各種子網頁進行排序和推薦。

    【技術特征摘要】
    1.一種網頁搜集推薦方法,其特征在于,包括:
    獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;
    根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網
    頁的語義概念進行聚類,得到語義結構;
    獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;
    確定出每個擴展網頁與所述語義結構之間的相似度;
    根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;
    周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結
    構更新種子網頁,直到達到預設的網頁獲取終止條件;
    對最后一個周期更新的各種子網頁進行排序和推薦。
    2.根據權利要求1所述的方法,其特征在于,所述周期性地根據更新的種子網頁進化語
    義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,具體包括:
    對于所述周期性中的一個周期,該周期內根據更新的種子網頁進化語義結構并更新擴
    展網頁、以及根據進化的語義結構更新種子網頁,包括:
    對于上一個周期更新的每個種子網頁,根據該種子網頁中詞語之間的出現關聯度,確
    定出該種子網頁的語義概念后添加到上一個周期進化的語義結構中,得到本周期進化的語
    義結構;
    獲取上一個周期更新的各種子網頁所鏈接的多個網頁,作為本周期更新的多個擴展網
    頁;
    確定出本周期更新的每個擴展網頁與所述本周期進化的語義結構之間的相似度;
    根據相似度不低于第一相似度閾值的本周期更新的擴展網頁,更新上一個周期更新的
    種子網頁,得到本周期更新的種子網頁。
    3.根據權利要求1所述的方法,其特征在于,所述根據種子網頁中詞語之間的出現關聯
    度,確定出該種子網頁的語義概念,包括:
    確定出每個種子網頁的每個句子的詞語集合;以及
    對于該種子網頁中每個句子的詞語集合,計算出該詞語集合中一對相鄰詞語的出現關
    聯度,并判斷該出現關聯度是否低于預設的出現關聯度閾值;若否,則將該對相鄰詞語合并
    為短語后,繼續計算該短語與后續相鄰詞語的出現關聯度,并繼續判斷該短語與后續相鄰
    詞語的出現關聯度是否低于所述出現關聯度閾值,直到遍歷該詞語集合的所有詞語,得到
    該句子的語義概念;
    將該種子網頁中各句子的語義概念,組成該種子網頁的語義概念。
    4.根據權利要求1所述的方法,其特征在于,所述獲取各種子網頁所鏈接的多個網頁之
    前,還包括:
    提取出各種子網頁中的鏈接文本;
    確定出每個鏈接文本的詞語集合;
    對于每個鏈接文本,根據該鏈接文本的詞語集合,確定出該鏈接文本與所述語義結構
    之間的相似度;以及
    所述獲取各種子網頁所鏈接的多個網頁,具體包括:
    獲取相似度不低于第二相似度閾值的鏈接文本所鏈接的網頁。
    5.根據權利要求1所述的方法,其特征在于,所述確定出每個擴展網頁與所述語義結構
    之間的相似度,包括:
    對于每個擴展網頁,分別計算出該擴展網頁與所述語義結構中的各語義概念簇之間的
    相似度;
    根據計算出的各相似度,確定出該擴展網頁與所述語義結構之間的相似度。
    6.一種網頁搜集推薦裝置,其特征在于,包括:...

    【專利技術屬性】
    技術研發人員:劉耀龔幸偉,
    申請(專利權)人:中國科學技術信息研究所,
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无遮掩无码h成人av动漫| 亚洲AV无码专区在线电影成人| YW尤物AV无码国产在线观看| 久久亚洲AV永久无码精品| 亚洲v国产v天堂a无码久久| 国产成人无码AV一区二区 | 亚洲AV永久无码精品放毛片| 免费无码又爽又高潮视频| 永久免费AV无码网站国产| 久久久久久久久免费看无码| 曰韩精品无码一区二区三区| 日韩免费无码一区二区视频| 亚洲AV无码久久精品成人| 国产精品爽爽V在线观看无码| 色综合久久中文字幕无码| 久久精品无码专区免费| 无码专区人妻系列日韩精品少妇| 精品人妻无码专区中文字幕| 无码一区二区波多野结衣播放搜索| 亚洲中久无码永久在线观看同| 无码国模国产在线观看免费| 亚洲国产精品无码久久98| 亚洲AV无码久久精品成人| 久久无码av三级| 在线观看免费无码专区| 国产精品无码永久免费888| 青春草无码精品视频在线观| 无码人妻丰满熟妇啪啪网站牛牛| 久久久久亚洲AV无码专区体验| 无码视频在线观看| 国产精品99精品无码视亚| 丰满少妇人妻无码| 东京热加勒比无码少妇| 久99久无码精品视频免费播放| 无码人妻一区二区三区免费视频 | 日韩精品中文字幕无码专区| 亚洲AV永久无码精品一福利| 无码天堂va亚洲va在线va| 免费无码一区二区| 中文字幕精品无码一区二区| 国产精品99久久久精品无码 |