【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計(jì)算機(jī)
,特別涉及一種識(shí)別相似網(wǎng)頁(yè)的方法及裝置。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的普及和發(fā)展,無(wú)論是網(wǎng)站數(shù)量還是網(wǎng)站下的網(wǎng)頁(yè)數(shù)量,都呈現(xiàn)爆炸 式增長(zhǎng)。由此產(chǎn)生了許多新興的互聯(lián)網(wǎng)服務(wù),如網(wǎng)頁(yè)聚類,網(wǎng)頁(yè)分類等服務(wù),這些服務(wù)都是 根據(jù)網(wǎng)頁(yè)呈現(xiàn)的信息為網(wǎng)頁(yè)進(jìn)行分類,由此提供更好的用戶體驗(yàn)。在對(duì)網(wǎng)頁(yè)進(jìn)行分類時(shí),需 要對(duì)待分類網(wǎng)頁(yè)進(jìn)行相似性判斷,找到與待分類網(wǎng)頁(yè)相似的已知類別的網(wǎng)頁(yè)即可確定待分 類網(wǎng)頁(yè)的類別。網(wǎng)頁(yè)是由HTML (Hypertext Markup Language,超文本標(biāo)記語(yǔ)言)元素信息構(gòu)成, 因此某些HTML元素信息的組合對(duì)一個(gè)網(wǎng)頁(yè)來(lái)說(shuō)是特有的,這就構(gòu)成了網(wǎng)頁(yè)的特征,通過(guò)人 工整理出網(wǎng)頁(yè)的特征并建立樣本庫(kù),識(shí)別出含有同樣特征的網(wǎng)頁(yè)即可為待分類網(wǎng)頁(yè)進(jìn)行分 類。另一種方式是將網(wǎng)頁(yè)轉(zhuǎn)化為圖像,然后對(duì)該圖像的水平和豎直方向分割成一組小的圖 像,分別計(jì)算每個(gè)圖像的直方圖,每個(gè)網(wǎng)頁(yè)對(duì)應(yīng)一組直方圖,通過(guò)比較待分類網(wǎng)頁(yè)與已知分 類網(wǎng)頁(yè)的兩組直方圖的相似性,為待分類網(wǎng)頁(yè)進(jìn)行分類。在實(shí)現(xiàn)本專利技術(shù)的過(guò)程中,專利技術(shù)人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題通過(guò)人工收集網(wǎng)頁(yè)的特征,耗費(fèi)時(shí)間過(guò)長(zhǎng)且效率低下;通過(guò)直方圖判斷網(wǎng)頁(yè)的相 似性時(shí),由于不記錄每個(gè)圖片中的顏色信息在圖片中的位置,因此只要圖片中的顏色信息 相似度高則判斷為相似,因此對(duì)網(wǎng)頁(yè)的誤判率較高,會(huì)被確定為錯(cuò)誤的類別。
技術(shù)實(shí)現(xiàn)思路
為了解決現(xiàn)有技術(shù)的問(wèn)題,本專利技術(shù)實(shí)施例提供了一種識(shí)別相似網(wǎng)頁(yè)的方法及裝 置。所述技術(shù)方案如下第一方面,本專利技術(shù)實(shí)施例提供的一種識(shí)別相似網(wǎng)頁(yè)的方法包括分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ) ...
【技術(shù)保護(hù)點(diǎn)】
一種識(shí)別相似網(wǎng)頁(yè)的方法,其特征在于,所述方法包括:分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息;根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度;當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。
【技術(shù)特征摘要】
1.一種識(shí)別相似網(wǎng)頁(yè)的方法,其特征在于,所述方法包括 分別獲取待分類的第一網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息和已知類別信息的第二網(wǎng)頁(yè)的HTML元素信息; 根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度; 當(dāng)所述相似度大于預(yù)設(shè)相似閾值時(shí),確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別獲取待分類的第一網(wǎng)頁(yè)和已知類別信息的第二網(wǎng)頁(yè)的超文本標(biāo)記語(yǔ)言HTML元素信息,包括 根據(jù)待分類的第一網(wǎng)頁(yè)的統(tǒng)一資源定位符URL地址,獲取所述第一網(wǎng)頁(yè)的文檔對(duì)象模型DOM結(jié)構(gòu)信息; 在已知類別網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中獲取已知類別信息的第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息; 分別對(duì)所述第一網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息和所述第二網(wǎng)頁(yè)的DOM結(jié)構(gòu)信息進(jìn)行廣度優(yōu)先遍歷,生成所述第一網(wǎng)頁(yè)的HTML元素信息的第一序列集合和所述第二網(wǎng)頁(yè)的HTML元素信息的第二序列集合; 刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述刪除所述第一序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息以及所述第二序列集合中與網(wǎng)頁(yè)結(jié)構(gòu)無(wú)關(guān)的HTML元素信息,包括 將所述第一序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除; 將所述第二序列集合中未在預(yù)設(shè)的與網(wǎng)頁(yè)結(jié)構(gòu)相關(guān)的HTML元素信息列表中存在的HTML元素信息進(jìn)行刪除。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的HTML元素信息,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度,包括 獲取所述第一序列集合包括的HTML元素信息的第一數(shù)量; 獲取所述第二序列集合包括的HTML元素信息的第二數(shù)量; 根據(jù)所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述第一數(shù)量和所述第二數(shù)量,計(jì)算所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度,包括 若所述第一數(shù)量等于所述第二數(shù)量,則根據(jù)序列相似度算法計(jì)算所述第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度; 若所述第一數(shù)量大于所述第二數(shù)量,則在所述第一序列集合中按順序選取所述第二數(shù)量的HTML元素信息作為新的第一序列集合,并根據(jù)序列相似度算法計(jì)算所述新的第一序列集合與所述第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度; 若所述第一數(shù)量小于所述第二數(shù)量,則在所述第二序列集合中按順序選取所述第一數(shù)量的HTML元素信息作為新的第二序列集合,并根據(jù)序列相似度算法計(jì)算所述第一序列集合與所述新的第二序列集合的相似度,并將所述相似度確定為所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)的相似度。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述第一網(wǎng)頁(yè)和所述第二網(wǎng)頁(yè)為相似網(wǎng)頁(yè)之后,所述方法還包括 獲取所述第二網(wǎng)頁(yè)的類別信息; 將所述第一網(wǎng)頁(yè)的類別信息...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李鵬,
申請(qǐng)(專利權(quán))人:華為技術(shù)有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。