【技術實現步驟摘要】
本專利技術涉及網絡數據采集
,具體而言,本專利技術涉及一種網頁搜集推薦方法和裝置。
技術介紹
隨著互聯網的迅猛發展,網絡上的信息量日益增多。用戶通常利用搜索引擎在互聯網中查找需要的網頁信息。搜索引擎(SearchEngine)預先根據指定的策略、利用網絡爬蟲從互聯網上抓取網頁,接收到用戶輸入的關鍵詞后,計算關鍵詞與預先抓取的各網頁之間的相關度,選擇相關度較高的網頁推薦并展示給用戶。目前,網絡爬蟲主要包括傳統爬蟲和主題爬蟲。一種利用傳統爬蟲的網頁搜集推薦方法主要包括:抓取一個或若干個初始網頁后,從初始網頁開始,獲得當前網頁上的URL(UniformResourceLocator,統一資源定位器),根據獲得的URL抓取網頁;在抓取網頁的過程中,不斷從當前網頁上抽取新的URL,根據新的URL繼續抓取網頁,直到滿足預設的條件停止抓取網頁,并存儲已抓取到的網頁;以在互聯網上搜集盡可能多的網頁推薦給用戶。然而,利用上述方法搜集推薦的眾多網頁中,通常包含大量用戶不需要的網頁,例如噪聲網頁,網頁搜集推薦的準確性較低、效率低下。導致用戶需要從大量的網頁中,人工篩選所需要的網頁,造成用戶獲取其所需要的網頁的效率低下,用戶體驗不佳。主題爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的網頁。與傳統爬蟲不同,主題爬蟲并不追求大的網頁覆蓋,而將目標定為抓取與某一特 ...
【技術保護點】
一種網頁搜集推薦方法,其特征在于,包括:獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網頁的語義概念進行聚類,得到語義結構;獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;確定出每個擴展網頁與所述語義結構之間的相似度;根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,直到達到預設的網頁獲取終止條件;對最后一個周期更新的各種子網頁進行排序和推薦。
【技術特征摘要】
1.一種網頁搜集推薦方法,其特征在于,包括:
獲取與用戶輸入的關鍵詞相關的多個網頁作為多個種子網頁;
根據種子網頁中詞語之間的出現關聯度,確定出該種子網頁的語義概念;對各種子網
頁的語義概念進行聚類,得到語義結構;
獲取各種子網頁所鏈接的多個網頁作為多個擴展網頁;
確定出每個擴展網頁與所述語義結構之間的相似度;
根據相似度不低于第一相似度閾值的擴展網頁,更新種子網頁;
周期性地根據更新的種子網頁進化語義結構并更新擴展網頁、以及根據進化的語義結
構更新種子網頁,直到達到預設的網頁獲取終止條件;
對最后一個周期更新的各種子網頁進行排序和推薦。
2.根據權利要求1所述的方法,其特征在于,所述周期性地根據更新的種子網頁進化語
義結構并更新擴展網頁、以及根據進化的語義結構更新種子網頁,具體包括:
對于所述周期性中的一個周期,該周期內根據更新的種子網頁進化語義結構并更新擴
展網頁、以及根據進化的語義結構更新種子網頁,包括:
對于上一個周期更新的每個種子網頁,根據該種子網頁中詞語之間的出現關聯度,確
定出該種子網頁的語義概念后添加到上一個周期進化的語義結構中,得到本周期進化的語
義結構;
獲取上一個周期更新的各種子網頁所鏈接的多個網頁,作為本周期更新的多個擴展網
頁;
確定出本周期更新的每個擴展網頁與所述本周期進化的語義結構之間的相似度;
根據相似度不低于第一相似度閾值的本周期更新的擴展網頁,更新上一個周期更新的
種子網頁,得到本周期更新的種子網頁。
3.根據權利要求1所述的方法,其特征在于,所述根據種子網頁中詞語之間的出現關聯
度,確定出該種子網頁的語義概念,包括:
確定出每個種子網頁的每個句子的詞語集合;以及
對于該種子網頁中每個句子的詞語集合,計算出該詞語集合中一對相鄰詞語的出現關
聯度,并判斷該出現關聯度是否低于預設的出現關聯度閾值;若否,則將該對相鄰詞語合并
為短語后,繼續計算該短語與后續相鄰詞語的出現關聯度,并繼續判斷該短語與后續相鄰
詞語的出現關聯度是否低于所述出現關聯度閾值,直到遍歷該詞語集合的所有詞語,得到
該句子的語義概念;
將該種子網頁中各句子的語義概念,組成該種子網頁的語義概念。
4.根據權利要求1所述的方法,其特征在于,所述獲取各種子網頁所鏈接的多個網頁之
前,還包括:
提取出各種子網頁中的鏈接文本;
確定出每個鏈接文本的詞語集合;
對于每個鏈接文本,根據該鏈接文本的詞語集合,確定出該鏈接文本與所述語義結構
之間的相似度;以及
所述獲取各種子網頁所鏈接的多個網頁,具體包括:
獲取相似度不低于第二相似度閾值的鏈接文本所鏈接的網頁。
5.根據權利要求1所述的方法,其特征在于,所述確定出每個擴展網頁與所述語義結構
之間的相似度,包括:
對于每個擴展網頁,分別計算出該擴展網頁與所述語義結構中的各語義概念簇之間的
相似度;
根據計算出的各相似度,確定出該擴展網頁與所述語義結構之間的相似度。
6.一種網頁搜集推薦裝置,其特征在于,包括:...
【專利技術屬性】
技術研發人員:劉耀,龔幸偉,
申請(專利權)人:中國科學技術信息研究所,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。