• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置制造方法及圖紙

    技術(shù)編號(hào):8594066 閱讀:185 留言:0更新日期:2013-04-18 07:16
    本發(fā)明專利技術(shù)公開了一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置,屬于計(jì)算機(jī)技術(shù)領(lǐng)域。所述方法包括:分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息;根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度;當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。本發(fā)明專利技術(shù)通過(guò)獲取待分類的第一網(wǎng)頁(yè)與已知類別的第二網(wǎng)頁(yè)的HTML元素信息,并根據(jù)兩個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的HTML元素信息計(jì)算相似度,確定兩個(gè)網(wǎng)頁(yè)是否相似,彌補(bǔ)了現(xiàn)有技術(shù)中人工判斷網(wǎng)頁(yè)相似度效率低下以及通過(guò)直方圖判斷網(wǎng)頁(yè)相似度誤判率較高的缺陷。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及計(jì)算機(jī)
    ,特別涉及一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置
    技術(shù)介紹
    隨著互聯(lián)網(wǎng)的普及和發(fā)展,無(wú)論是網(wǎng)站數(shù)量還是網(wǎng)站下的網(wǎng)頁(yè)數(shù)量,都呈現(xiàn)爆炸 式增長(zhǎng)。由此產(chǎn)生了許多新興的互聯(lián)網(wǎng)服務(wù),如網(wǎng)頁(yè)聚類,網(wǎng)頁(yè)分類等服務(wù),這些服務(wù)都是 根據(jù)網(wǎng)頁(yè)呈現(xiàn)的信息為網(wǎng)頁(yè)進(jìn)行分類,由此提供更好的用戶體驗(yàn)。在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),需 要對(duì)待分類網(wǎng)頁(yè)進(jìn)行相似性判斷,找到與待分類網(wǎng)頁(yè)相似的已知類別的網(wǎng)頁(yè)即可確定待分 類網(wǎng)頁(yè)的類別。網(wǎng)頁(yè)是由HTML (Hypertext Markup Language,超文本標(biāo)記語(yǔ)言)元素信息構(gòu)成, 因此某些HTML元素信息的組合對(duì)一個(gè)網(wǎng)頁(yè)來(lái)說(shuō)是特有的,這就構(gòu)成了網(wǎng)頁(yè)的特征,通過(guò)人 工整理出網(wǎng)頁(yè)的特征并建立樣本庫(kù),識(shí)別出含有同樣特征的網(wǎng)頁(yè)即可為待分類網(wǎng)頁(yè)進(jìn)行分 類。另一種方式是將網(wǎng)頁(yè)轉(zhuǎn)化為圖像,然后對(duì)該圖像的水平和豎直方向分割成一組小的圖 像,分別計(jì)算每個(gè)圖像的直方圖,每個(gè)網(wǎng)頁(yè)對(duì)應(yīng)一組直方圖,通過(guò)比較待分類網(wǎng)頁(yè)與已知分 類網(wǎng)頁(yè)的兩組直方圖的相似性,為待分類網(wǎng)頁(yè)進(jìn)行分類。在實(shí)現(xiàn)本專利技術(shù)的過(guò)程中,專利技術(shù)人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題通過(guò)人工收集網(wǎng)頁(yè)的特征,耗費(fèi)時(shí)間過(guò)長(zhǎng)且效率低下;通過(guò)直方圖判斷網(wǎng)頁(yè)的相 似性時(shí),由于不記錄每個(gè)圖片中的顏色信息在圖片中的位置,因此只要圖片中的顏色信息 相似度高則判斷為相似,因此對(duì)網(wǎng)頁(yè)的誤判率較高,會(huì)被確定為錯(cuò)誤的類別。
    技術(shù)實(shí)現(xiàn)思路
    為了解決現(xiàn)有技術(shù)的問(wèn)題,本專利技術(shù)實(shí)施例提供了一種識(shí)別相似網(wǎng)頁(yè)的方法及裝 置。所述技術(shù)方案如下第一方面,本專利技術(shù)實(shí)施例提供的一種識(shí)別相似網(wǎng)頁(yè)的方法包括分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的 第二網(wǎng)頁(yè)的HTML元素信息;根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述 第二網(wǎng)頁(yè)的相似度;當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng) 頁(yè)。在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述分別獲取待分類的第一網(wǎng)頁(yè)和已知 類別信息的第二網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息,包括根據(jù)待分類的第一網(wǎng)頁(yè)的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁(yè)的文檔對(duì) 象模型DOM結(jié)構(gòu)信息;在已知類別網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中獲取已知類別信息的第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息;分別對(duì)所述第一網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁(yè)的HTML元素信息的第一序列集合和所述第二網(wǎng)頁(yè)的HTML元素 信息的第二序列集合;刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集 合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息。結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,所述刪除 所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié) 構(gòu)無(wú)關(guān)的HTML元素信息,包括將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在 的HTML元素信息進(jìn)行刪除;將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在 的HTML元素信息進(jìn)行刪除。結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述根據(jù) 所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相 似度,包括獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量;獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量;根據(jù)所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述根據(jù) 所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度,包括若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算法計(jì)算所述第一序列集 合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的 相似度;若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集合中按順序選取所述第 二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似度算法計(jì)算所述新的第 一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第 二網(wǎng)頁(yè)的相似度;若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集合中按順序選取所述第 一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似度算法計(jì)算所述第一序 列集合與所述新的第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第 二網(wǎng)頁(yè)的相似度。在第一方面的第五種可能的實(shí)現(xiàn)方式中,所述確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè) 為相似網(wǎng)頁(yè)之后,所述方法還包括獲取所述第二網(wǎng)頁(yè)的類別信息;將所述第一網(wǎng)頁(yè)的類別信息設(shè)置為所述第二網(wǎng)頁(yè)的類別信息。第二方面,本專利技術(shù)實(shí)施例提供的一種識(shí)別相似網(wǎng)頁(yè)的裝置包括第一獲取模塊,用于分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信 息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息;計(jì)算模塊,用于根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度;確定模塊,用于當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第 二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述第一獲取模塊,包括第一獲取單元,用于根據(jù)待分類的第一網(wǎng)頁(yè)的統(tǒng)一資源定位符URL地址,獲取所 述第一網(wǎng)頁(yè)的文檔對(duì)象模型DOM結(jié)構(gòu)信息;第二獲取單元,用于在已知類別網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中獲取已知類別信息的第二網(wǎng)頁(yè)的 DOM結(jié)構(gòu)信息;生成單元,用于分別對(duì)所述第一網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁(yè)的DOM結(jié)構(gòu) 信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁(yè)的HTML元素信息的第一序列集合和所述第二 網(wǎng)頁(yè)的HTML元素信息的第二序列集合;刪除單元,用于刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及 所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息。結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,所述刪除 單元,包括第一刪除子單元,用于將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML 元素信息列表中存在的HTML元素信息進(jìn)行刪除;第二刪除子單元,用于將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML 元素信息列表中存在的HTML元素信息進(jìn)行刪除。結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述計(jì)算 模塊,包括第三獲取單元,用于獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量;第四獲取單元,用于獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量;計(jì)算單元,用于根據(jù)所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第 二網(wǎng)頁(yè)的相似度。結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述計(jì)算 單元,包括第一計(jì)算子單元,用于若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算 法計(jì)算所述第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一 網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度;第二計(jì)算子單元,用于若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集 合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似 度算法計(jì)算所述新的第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為 所述第一網(wǎng)頁(yè)和所述第二網(wǎng)本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    一種識(shí)別相似網(wǎng)頁(yè)的方法,其特征在于,所述方法包括:分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息;根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度;當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。

    【技術(shù)特征摘要】
    1.一種識(shí)別相似網(wǎng)頁(yè)的方法,其特征在于,所述方法包括 分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息; 根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度; 當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別獲取待分類的第一網(wǎng)頁(yè)和已知類別信息的第二網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息,包括 根據(jù)待分類的第一網(wǎng)頁(yè)的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁(yè)的文檔對(duì)象模型DOM結(jié)構(gòu)信息; 在已知類別網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中獲取已知類別信息的第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息; 分別對(duì)所述第一網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁(yè)的HTML元素信息的第一序列集合和所述第二網(wǎng)頁(yè)的HTML元素信息的第二序列集合; 刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息,包括 將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除; 將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度,包括 獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量; 獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量; 根據(jù)所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度,包括 若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算法計(jì)算所述第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度; 若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似度算法計(jì)算所述新的第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度; 若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集合中按順序選取所述第一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似度算法計(jì)算所述第一序列集合與所述新的第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)之后,所述方法還包括 獲取所述第二網(wǎng)頁(yè)的類別信息; 將所述第一網(wǎng)頁(yè)的類別信息...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李鵬
    申請(qǐng)(專利權(quán))人:華為技術(shù)有限公司
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 少妇无码太爽了不卡视频在线看 | 亚洲精品无码日韩国产不卡?V | mm1313亚洲精品无码又大又粗| 深夜a级毛片免费无码| 国产精品无码亚洲精品2021| 国产精品白浆在线观看无码专区| 粉嫩大学生无套内射无码卡视频| 久久久久无码精品国产不卡| 亚洲乱亚洲乱妇无码| 久久精品无码一区二区日韩AV| 久久久久亚洲Av无码专| 中文字幕无码人妻AAA片| 亚洲av无码专区在线电影天堂| 亚洲乱亚洲乱妇无码麻豆| 日韩精品无码成人专区| 亚洲国产超清无码专区| 国产成年无码久久久久毛片| 无码精品人妻一区二区三区免费| 久久久久av无码免费网| 无码乱人伦一区二区亚洲| 日韩精品无码视频一区二区蜜桃| 日韩AV无码一区二区三区不卡| 亚洲日韩精品A∨片无码加勒比 | 无码任你躁久久久久久老妇App| 国产品无码一区二区三区在线蜜桃 | 国产网红无码精品视频| 亚洲精品无码久久毛片| 亚洲日韩VA无码中文字幕| 永久免费av无码网站大全| 国产精品无码亚洲一区二区三区 | 国产成人无码精品久久久露脸| 亚洲色无码国产精品网站可下载| 久久亚洲AV无码精品色午夜麻豆| 亚洲av永久无码精品古装片| 久久久国产精品无码免费专区| 精品久久久无码中字| 97无码免费人妻超级碰碰碰碰| 内射人妻无套中出无码| 亚洲精品无码久久久| 国产AV无码专区亚洲AV男同| 熟妇人妻无码中文字幕|