• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種網頁地址分類方法及裝置制造方法及圖紙

    技術編號:15690933 閱讀:68 留言:0更新日期:2017-06-24 03:43
    本發明專利技術實施例提供了一種網頁地址分類方法及裝置。該方法應用于電子設備,包括:獲得待分類網頁地址;確定第一地址組,該地址組包括目標網頁地址,該地址為第二地址組中存在于權威數據庫的網頁地址,第二地址組中包括待分類網頁地址對應的網頁中的正向鏈接,權威數據庫中具有類型互不相同的權威信息組,每個信息組中具有權威網頁地址與權重值的對應關系;基于各信息組中分布的目標網頁地址對應的權重值、其在第一地址組中出現的次數及得分計算公式,確定各信息組與待分類網頁地址的匹配得分;將得分最高的信息組的類型確定為待分類網頁地址的類型。可見,本方案可以對網頁地址的類型進行科學地識別。

    Method and device for classifying web page address

    The embodiment of the invention provides a method and a device for classifying web page addresses. The method is applied to the electronic equipment: to be classified Web address; determining a first address group address group, the target page address, the address for the web page address second address groups exist in the authoritative database, second address groups including web addresses to be classified on the forward link shall be \the authoritative information group type different authority database, there is a corresponding relation between the authority web page address and weighted value of each group in the formula to calculate the weight information; the target page address corresponding to each information distribution in the group, it appears in the first address in the group number and score based on the scores of each group and to determine matching information to be classified\ the type of address; the highest scoring group to determine the type of information to be classified page address. Obviously, this scheme can identify the types of web addresses scientifically.

    【技術實現步驟摘要】
    一種網頁地址分類方法及裝置
    本專利技術涉及網絡通信
    ,特別是涉及一種網頁地址分類方法及裝置。
    技術介紹
    隨著網絡通信技術的迅速發展,互聯網中的網頁數目異常龐大。容易理解的是,按照不同的分類依據,這些網頁對應的網頁地址會被分成不同的類型。具體地,在一種分類方式中,這些網頁地址被分為新聞類的、體育類的、購物類的等;在另一種分類方式中,這些網頁地址被分為與工作相關的或者與工作無關的。對于現有技術而言,當對網頁地址進行分類時,一般需要依賴于對樣本網頁地址的挑選和字典的生成。一般而言,當該網頁地址對應的網頁中的內容較少時,依靠上述分類方法根本無法得出該網頁地址的明確分類。因此,如何對網頁地址的分類進行科學地識別對于本領域技術人員而言是一個亟待解決的問題。
    技術實現思路
    本專利技術實施例的目的在于提供一種網頁地址分類方法及裝置,以對網頁地址的分類進行科學地識別。本專利技術實施例提供了一種網頁地址分類方法,應用于電子設備中,所述方法包括:獲得待分類網頁地址;確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型。本專利技術實施例提供了一種網頁地址分類裝置,應用于電子設備中,所述裝置包括:獲得模塊,用于獲得待分類網頁地址;地址組確定模塊,用于確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;匹配得分確定模塊,用于基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;分類模塊,用于將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型。本方案中,當電子設備獲得待分類網頁地址后,電子設備會對該待分類網頁地址的類型進行識別。在類型識別過程中,電子設備需要先確定待分類網頁地址對應的網頁中的各正向鏈接組成的第二地址組,接下來,電子設備會確定第二地址組中的、存在于權威數據庫中的各目標網頁地址組成的第一地址組。之后,基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在第一地址組中出現的次數,以及預設的匹配得分計算公式,電子設備可以非常容易地確定出各權威信息組與待分類網頁地址的匹配得分。最終,電子設備可以將與待分類網頁地址的匹配得分最高的權威信息組的類型確定為該待分類網頁地址的類型。容易看出,在本方案中,電子設備對待分類網頁地址的類型的識別僅僅依賴于待分類網頁地址對應的網頁中的各正向鏈接和權威數據庫,電子設備無需利用其它的信息,故即使在待分類網頁地址對應的網頁中的內容較少時,電子設備也能夠對待分類網頁地址的類型進行科學地識別。附圖說明為了更清楚地說明本專利技術實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本專利技術實施例所提供的一種網頁地址分類方法的流程圖;圖2為本專利技術實施例所提供的一種網頁地址分類方法的又一流程圖;圖3為本專利技術實施例所提供的一種網頁地址分類方法的再一流程圖;圖4為網頁1、網頁2和網頁3的指向關系圖;圖5為本專利技術實施例所提供的一種網頁地址分類裝置的結構框圖。具體實施方式下面將結合本專利技術實施例中的附圖,對本專利技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術保護的范圍。為了解決現有技術存在的問題,本專利技術實施例提供了一種網頁地址分類方法及裝置。下面首先對本專利技術實施例所提供的一種網頁地址分類方法進行說明。需要說明的是,本專利技術實施例所提供的一種網頁地址分類方法應用于電子設備。具體地,該電子設備可以為防火墻設備,當然,該電子設備的類型并不局限于此,具體可以根據實際情況來確定,在此不再一一贅述。參見圖1,圖中示出了本專利技術實施例所提供的一種網頁地址分類方法的流程圖。如圖1所示,該方法可以包括如下步驟:S101,獲得待分類網頁地址。S102,確定第一地址組,第一地址組中包括目標網頁地址,目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,第二地址組中包括待分類網頁地址對應的網頁中的各正向鏈接,權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系。需要說明的是,權威數據庫存在著兩種部署方式。一種部署方式中,權威數據庫可以位于該電子設備上,這樣,在獲得待分類網頁地址后,該電子設備可以直接利用自身的該權威數據庫來執行S102。另一種部署方式中,權威數據庫可以位于能夠與該電子設備進行信息交互的另一電子設備上,這樣,在獲得待分類網頁地址后,該電子設備可以通過通信接口對位于另一電子設備上的權威數據庫進行訪問,以執行S102。可以理解的是,權威網頁是指與某個領域或者某個話題相關的高質量網頁。舉例而言,在搜索引擎領域,Google、Baidu、bing、sogou和soso首頁為該領域的高質量網頁,故Google、Baidu、bing、sogou和soso首頁為搜索引擎領域的權威網頁;在視頻領域,優酷和土豆首頁為該領域的高質量網頁,故優酷和土豆首頁為視頻領域的權威網頁。需要指出的是,權威網頁地址即為權威網頁的地址,權威信息組為包括了權威網頁地址與權重值之間的對應關系的信息組,而權威數據庫則為包括了多個類型互不相同的權威信息組的數據庫。需要強調的是,電子設備確定權威網頁地址對應的權重值的具體實現形式多樣,為了布局清楚,后續進行舉例介紹。容易看出,權威數據庫的各權威信息組中的每個網頁地址均為權威網頁地址,這樣,第一地址組中的每個目標網頁地址也應當是權威網頁地址,電子設備后續計算匹配得分時利用的也是與權威網頁地址相關的信息,相應地,后續得到的匹配得分的權威性能夠得到較好地保證。對于電子設備而言,在獲得待分類網頁地址之后,其可以利用爬蟲對待分類網頁地址對應的網頁進行訪問,以得到待分類網頁地址對應的網頁中的各正向鏈接,這些正向鏈接的集合構成了第二地址組。接下來,電子設備可以將第二地址組中的各正向鏈接與權威數據庫中的所有權威網頁地址進行遍歷比較,以確定第二地址組中的、存在于權本文檔來自技高網...
    一種網頁地址分類方法及裝置

    【技術保護點】
    一種網頁地址分類方法,其特征在于,應用于電子設備中,所述方法包括:獲得待分類網頁地址;確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型。

    【技術特征摘要】
    1.一種網頁地址分類方法,其特征在于,應用于電子設備中,所述方法包括:獲得待分類網頁地址;確定第一地址組,所述第一地址組中包括目標網頁地址,所述目標網頁地址為第二地址組中的、存在于權威數據庫中的網頁地址,所述第二地址組中包括所述待分類網頁地址對應的網頁中的各正向鏈接,所述權威數據庫中存儲有類型互不相同的多個權威信息組,每個權威信息組中存儲有權威網頁地址與權重值之間的對應關系;基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分;將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型。2.根據權利要求1所述的方法,其特征在于,所述基于各權威信息組中所分布的每個目標網頁地址對應的權重值、該目標網頁地址在所述第一地址組中出現的次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分,包括:對各所述權威信息組中所分布的每個目標網頁地址在所述第一地址組中出現的次數進行校準,以確定相應的校準次數;基于各權威信息組中分布的每個目標網頁地址對應的權重值、該目標網頁地址對應的校準次數,以及預設的匹配得分計算公式,確定各權威信息組與所述待分類網頁地址的匹配得分。3.根據權利要求2所述的方法,其特征在于,對各所述權威信息組中所分布的每個目標網頁地址在所述第一地址組中出現的次數進行校準,以確定相應的校準次數利用的公式為:ScientificMatchTime=MatchTime(1/M)其中,ScientificMatchTime為校準次數,MatchTime為任一目標網頁地址在所述第一地址組中出現的次數,M為預設的開方次數,M大于或等于2。4.根據權利要求2所述的方法,其特征在于,計算任一權威信息組與所述待分類網頁地址的匹配得分時利用的匹配得分計算公式為:其中,TypeScore為該權威信息組與所述待分類網頁地址的匹配得分,n為該權威信息組中所分布的目標網頁地址的個數,ScientificMatchTime(n)為該權威信息組中所分布的第n個目標網頁地址對應的校準次數,Weight(n)為該權威信息組中所分布的第n個目標網頁地址對應的權重值。5.根據權利要求1所述的方法,其特征在于,所述確定第一地址組之前,所述方法還包括:判斷所述待分類網頁地址是否存在于網頁數據庫的任一網頁地址分組中,其中,所述網頁數據庫中存儲有類型互不相同的多個網頁地址分組;若為否,執行所述確定第一地址組的步驟。6.根據權利要求5所述的方法,其特征在于,所述將與所述待分類網頁地址的匹配得分最高的權威信息組的類型確定為所述待分類網頁地址的類型后,所述方法還包括:將所述待分類網頁地址存儲至類型為所述待分類網頁地址的類型的網頁地址分組中。7.根據權利要求1-6中任一項所述的方法,其特征在于,所述確定第一地址組之前,所述方法還包括:確定多個不同的類型,并創建包括有多個權威信息組的權威數據庫,其中,所述權威信息組與所述類型一一對應;針對每個類型,確定對應的網頁地址集合,其中,每個網頁地址集合中包括第一預設數量個權威網頁地址;確定每個類型對應的根集,其中,每個根集中包括該根集的類型對應的網頁地址集合中的第二預設數量個權威網頁地址;確定每個類型對應的擴展集合,其中,每個擴展集合中包括該擴展集合的類型對應的根集中的各權威網頁地址對應的網頁中的正向鏈接;基于每個類型對應的根集、擴展集合,以及超文本敏感標題搜索HITS算法,計算每個類型對應的根集中的各權威網頁地址所對應的權重值;將計算得到的每個權威網頁地址對應的權重值與該權威網頁地址之間的對應關系存儲至該權威網頁地址的類型對應的權威信息組中。8.一種網頁地址分類裝置,其特征在于,應用于電子設備...

    【專利技術屬性】
    技術研發人員:張驚申魯廣平
    申請(專利權)人:新華三技術有限公司
    類型:發明
    國別省市:浙江,33

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 西西午夜无码大胆啪啪国模 | 中文无码喷潮在线播放| 高清无码午夜福利在线观看 | 人妻丰满熟妇av无码区不卡| 亚洲中文字幕无码一久久区| 人妻丰满熟妇av无码区不卡| 惠民福利中文字幕人妻无码乱精品 | 亚洲国产AV无码专区亚洲AV| 无码中文2020字幕二区| 东京热无码一区二区三区av| 精品久久无码中文字幕| 国模无码人体一区二区| 免费A级毛片无码免费视| 特级无码毛片免费视频尤物 | 国产精品无码一区二区三区不卡| 国产日韩精品中文字无码| 无码人妻一区二区三区av| 无码人妻一区二区三区在线 | 亚洲中文字幕无码中文字| 亚洲VA中文字幕无码一二三区| 精品久久久久久久无码久中文字幕| 亚洲AV无码国产在丝袜线观看| 极品粉嫩嫩模大尺度无码视频| 人妻在线无码一区二区三区| 免费看成人AA片无码视频羞羞网| 亚洲VA中文字幕无码一二三区| 久久久久亚洲AV无码专区桃色| 成人免费无码大片A毛片抽搐色欲| 亚洲精品无码专区在线播放| 日韩精品无码一区二区中文字幕| 暴力强奷在线播放无码| 精品无码三级在线观看视频| 亚洲?V无码乱码国产精品| 国产精品无码aⅴ嫩草| 免费人妻av无码专区| 亚洲精品无码你懂的网站| 亚洲av中文无码| 亚洲综合无码AV一区二区| 在线观看片免费人成视频无码| 在线高清无码A.| 亚洲AV无码一区二区三区牛牛|