The embodiment of the invention provides a method and a device for classifying web page addresses. The method is applied to the electronic equipment: to be classified Web address; determining a first address group address group, the target page address, the address for the web page address second address groups exist in the authoritative database, second address groups including web addresses to be classified on the forward link shall be \the authoritative information group type different authority database, there is a corresponding relation between the authority web page address and weighted value of each group in the formula to calculate the weight information; the target page address corresponding to each information distribution in the group, it appears in the first address in the group number and score based on the scores of each group and to determine matching information to be classified\ the type of address; the highest scoring group to determine the type of information to be classified page address. Obviously, this scheme can identify the types of web addresses scientifically.
【技術實現步驟摘要】
一種網頁地址分類方法及裝置
本專利技術涉及網絡通信
,特別是涉及一種網頁地址分類方法及裝置。
技術介紹
隨著網絡通信技術的迅速發展,互聯網中的網頁數目異常龐大。容易理解的是,按照不同的分類依據,這些網頁對應的網頁地址會被分成不同的類型。具體地,在一種分類方式中,這些網頁地址被分為新聞類的、體育類的、購物類的等;在另一種分類方式中,這些網頁地址被分為與工作相關的或者與工作無關的。對于現有技術而言,當對網頁地址進行分類時,一般需要依賴于對樣本網頁地址的挑選和字典的生成。一般而言,當該網頁地址對應的網頁中的內容較少時,依靠上述分類方法根本無法得出該網頁地址的明確分類。因此,如何對網頁地址的分類進行科學地識別對于本領域技術人員而言是一個亟待解決的問題。
技術實現思路
本專利技術實施例的目的在于提供一種網頁地址分類方法及裝置,以對網頁地址的分類進行科學地識別。本專利技術實施例提供了一種網頁地址分類方法,應用于電子設備中,所述方法包括:獲得待分類網頁地址;確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確 ...
【技術保護點】
一種網頁地址分類方法,其特征在于,應用于電子設備中,所述方法包括:獲得待分類網頁地址;確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型。
【技術特征摘要】
1.一種網頁地址分類方法,其特征在于,應用于電子設備中,所述方法包括:獲得待分類網頁地址;確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型。2.根據權利要求1所述的方法,其特征在于,所述基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分,包括:對各所述權威信息組中所分布的每個目標網頁地址在所述第一地址組中出現的次數進行校準,以確定相應的校準次數;基于各權威信息組中分布的每個目標網頁地址對應的權重值、該目標網頁地址對應的校準次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分。3.根據權利要求2所述的方法,其特征在于,對各所述權威信息組中所分布的每個目標網頁地址在所述第一地址組中出現的次數進行校準,以確定相應的校準次數利用的公式為:ScientificMatchTime=MatchTime(1/M)其中,ScientificMatchTime為校準次數,MatchTime為任一目標網頁地址在所述第一地址組中出現的次數,M為預設的開方次數,M大于或等于2。4.根據權利要求2所述的方法,其特征在于,計算任一權威信息組與所述待分類網頁地址的匹配得分時利用的匹配得分計算公式為:其中,TypeScore為該權威信息組與所述待分類網頁地址的匹配得分,n為該權威信息組中所分布的目標網頁地址的個數,ScientificMatchTime(n)為該權威信息組中所分布的第n個目標網頁地址對應的校準次數,Weight(n)為該權威信息組中所分布的第n個目標網頁地址對應的權重值。5.根據權利要求1所述的方法,其特征在于,所述確定第一地址組之前,所述方法還包括:判斷所述待分類網頁地址是否存在于網頁數據庫的任一網頁地址分組中,其中,所述網頁數據庫中存儲有類型互不相同的多個網頁地址分組;若為否,執行所述確定第一地址組的步驟。6.根據權利要求5所述的方法,其特征在于,所述將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型后,所述方法還包括:將所述待分類網頁地址存儲至類型為所述待分類網頁地址的類型的網頁地址分組中。7.根據權利要求1-6中任一項所述的方法,其特征在于,所述確定第一地址組之前,所述方法還包括:確定多個不同的類型,并創建包括有多個權威信息組的權威數據庫,其中,所述權威信息組與所述類型一一對應;針對每個類型,確定對應的網頁地址集合,其中,每個網頁地址集合中包括第一預設數量個權威網頁地址;確定每個類型對應的根集,其中,每個根集中包括該根集的類型對應的網頁地址集合中的第二預設數量個權威網頁地址;確定每個類型對應的擴展集合,其中,每個擴展集合中包括該擴展集合的類型對應的根集中的各權威網頁地址對應的網頁中的正向鏈接;基于每個類型對應的根集、擴展集合,以及超文本敏感標題搜索HITS算法,計算每個類型對應的根集中的各權威網頁地址所對應的權重值;將計算得到的每個權威網頁地址對應的權重值與該權威網頁地址之間的對應關系存儲至該權威網頁地址的類型對應的權威信息組中。8.一種網頁地址分類裝置,其特征在于,應用于電子設備...
【專利技術屬性】
技術研發人員:張驚申,魯廣平,
申請(專利權)人:新華三技術有限公司,
類型:發明
國別省市:浙江,33
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。