當(dāng)前位置: 首頁(yè) > 專利查詢>華為技術(shù)有限公司專利>正文

一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置制造方法及圖紙

技術(shù)編號(hào)：8594066 閱讀：185 留言：0更新日期：2013-04-18 07:16

本發(fā)明專利技術(shù)公開了一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置，屬于計(jì)算機(jī)技術(shù)領(lǐng)域。所述方法包括：分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息；根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息，計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度；當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí)，確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。本發(fā)明專利技術(shù)通過(guò)獲取待分類的第一網(wǎng)頁(yè)與已知類別的第二網(wǎng)頁(yè)的HTML元素信息，并根據(jù)兩個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的HTML元素信息計(jì)算相似度，確定兩個(gè)網(wǎng)頁(yè)是否相似，彌補(bǔ)了現(xiàn)有技術(shù)中人工判斷網(wǎng)頁(yè)相似度效率低下以及通過(guò)直方圖判斷網(wǎng)頁(yè)相似度誤判率較高的缺陷。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計(jì)算機(jī)
，特別涉及一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的普及和發(fā)展，無(wú)論是網(wǎng)站數(shù)量還是網(wǎng)站下的網(wǎng)頁(yè)數(shù)量，都呈現(xiàn)爆炸式增長(zhǎng)。由此產(chǎn)生了許多新興的互聯(lián)網(wǎng)服務(wù)，如網(wǎng)頁(yè)聚類，網(wǎng)頁(yè)分類等服務(wù)，這些服務(wù)都是根據(jù)網(wǎng)頁(yè)呈現(xiàn)的信息為網(wǎng)頁(yè)進(jìn)行分類，由此提供更好的用戶體驗(yàn)。在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí)，需要對(duì)待分類網(wǎng)頁(yè)進(jìn)行相似性判斷，找到與待分類網(wǎng)頁(yè)相似的已知類別的網(wǎng)頁(yè)即可確定待分類網(wǎng)頁(yè)的類別。網(wǎng)頁(yè)是由HTML (Hypertext Markup Language,超文本標(biāo)記語(yǔ)言)元素信息構(gòu)成，因此某些HTML元素信息的組合對(duì)一個(gè)網(wǎng)頁(yè)來(lái)說(shuō)是特有的，這就構(gòu)成了網(wǎng)頁(yè)的特征，通過(guò)人工整理出網(wǎng)頁(yè)的特征并建立樣本庫(kù)，識(shí)別出含有同樣特征的網(wǎng)頁(yè)即可為待分類網(wǎng)頁(yè)進(jìn)行分類。另一種方式是將網(wǎng)頁(yè)轉(zhuǎn)化為圖像，然后對(duì)該圖像的水平和豎直方向分割成一組小的圖像，分別計(jì)算每個(gè)圖像的直方圖，每個(gè)網(wǎng)頁(yè)對(duì)應(yīng)一組直方圖，通過(guò)比較待分類網(wǎng)頁(yè)與已知分類網(wǎng)頁(yè)的兩組直方圖的相似性，為待分類網(wǎng)頁(yè)進(jìn)行分類。在實(shí)現(xiàn)本專利技術(shù)的過(guò)程中，專利技術(shù)人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題通過(guò)人工收集網(wǎng)頁(yè)的特征，耗費(fèi)時(shí)間過(guò)長(zhǎng)且效率低下；通過(guò)直方圖判斷網(wǎng)頁(yè)的相似性時(shí)，由于不記錄每個(gè)圖片中的顏色信息在圖片中的位置，因此只要圖片中的顏色信息相似度高則判斷為相似，因此對(duì)網(wǎng)頁(yè)的誤判率較高，會(huì)被確定為錯(cuò)誤的類別。
技術(shù)實(shí)現(xiàn)思路
為了解決現(xiàn)有技術(shù)的問(wèn)題，本專利技術(shù)實(shí)施例提供了一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置。所述技術(shù)方案如下第一方面，本專利技術(shù)實(shí)施例提供的一種識(shí)別相似網(wǎng)頁(yè)的方法包括分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)...

【技術(shù)保護(hù)點(diǎn)】
一種識(shí)別相似網(wǎng)頁(yè)的方法，其特征在于，所述方法包括：分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息；根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息，計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度；當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí)，確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。

【技術(shù)特征摘要】
1.一種識(shí)別相似網(wǎng)頁(yè)的方法，其特征在于，所述方法包括分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息；根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息，計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度；當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí)，確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述分別獲取待分類的第一網(wǎng)頁(yè)和已知類別信息的第二網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息，包括根據(jù)待分類的第一網(wǎng)頁(yè)的統(tǒng)一資源定位符URL地址，獲取所述第一網(wǎng)頁(yè)的文檔對(duì)象模型DOM結(jié)構(gòu)信息；在已知類別網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中獲取已知類別信息的第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息；分別對(duì)所述第一網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷，生成所述第一網(wǎng)頁(yè)的HTML元素信息的第一序列集合和所述第二網(wǎng)頁(yè)的HTML元素信息的第二序列集合；刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息。3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息，包括將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除；將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除。4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息，計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度，包括獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量；獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量；根據(jù)所述第一數(shù)量和所述第二數(shù)量，計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述根據(jù)所述第一數(shù)量和所述第二數(shù)量，計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度，包括若所述第一數(shù)量等于所述第二數(shù)量，則根據(jù)序列相似度算法計(jì)算所述第一序列集合與所述第二序列集合的相似度，并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度；若所述第一數(shù)量大于所述第二數(shù)量，則在所述第一序列集合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合，并根據(jù)序列相似度算法計(jì)算所述新的第一序列集合與所述第二序列集合的相似度，并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度；若所述第一數(shù)量小于所述第二數(shù)量，則在所述第二序列集合中按順序選取所述第一數(shù)量的HTML元素信息作為新的第二序列集合，并根據(jù)序列相似度算法計(jì)算所述第一序列集合與所述新的第二序列集合的相似度，并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)之后，所述方法還包括獲取所述第二網(wǎng)頁(yè)的類別信息；將所述第一網(wǎng)頁(yè)的類別信息...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李鵬，
申請(qǐng)(專利權(quán))人：華為技術(shù)有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)