本申請提供了一種關鍵詞的擴充方法及裝置,其中的方法具體包括:獲取網頁樣本及對應的關鍵詞;依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別;對分類前后的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益;選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞。本申請能夠針對某一特定范疇進行關鍵詞的擴充,得到具有確定性的擴充結果。
【技術實現步驟摘要】
【專利摘要】本申請提供了一種關鍵詞的擴充方法及裝置,其中的方法具體包括:獲取網頁樣本及對應的關鍵詞;依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別;對分類前后的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益;選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞。本申請能夠針對某一特定范疇進行關鍵詞的擴充,得到具有確定性的擴充結果。【專利說明】—種關鍵詞的擴充方法及裝置
本申請涉及互聯網
,特別是涉及一種關鍵詞的擴充方法及裝置。
技術介紹
目前,隨著互聯網技術的發展,關鍵詞技術在互聯網領域的應用也變得愈加廣泛,例如其可以應用于互聯網營銷、搜索引擎的優化排名等各種互聯網領域。以應用于互聯網營銷領域為例,如果能找到某一范疇內的關鍵詞,就能在互聯網上鎖定對該范疇感興趣的用戶,從而可以針對鎖定的用戶進行精準營銷。而關鍵詞的擴充就是用于找到某一范疇內的關鍵詞。例如,廣告公司需要將某皮膚病的廣告投放給互聯網上特定的用戶,為了鎖定欲投放的特定用戶,需要針對“皮膚病”這一范疇進行關鍵詞的擴充,例如,擴充結果具體可以包括:“溢脂性皮炎、疥瘡、腳氣、手足癬”等關鍵詞,當有用戶在搜索引擎上搜索這些關鍵詞時,可以認定該用戶對“皮膚病”感興趣,于是可以針對該用戶投放上述皮膚病的廣告。現有關鍵詞的擴充方法主要包括主題模型算法、simrank算法等。其中,主題模型的本質是一種基于文本概率建立的模型,給該模型一堆文檔,并指定一個參數K,該模型會輸出K組詞,其中每組內的詞為相似的、用于描述相同事物的詞語,K越大,每一組詞的數量就越大;Simrank算法輸出的結果包括一個詞和一組跟該詞相關的詞。然而,主題模型算法、simrank算法均是無監督機器學習算法,其無法給出某組詞所屬的類別,因此不能針對某一特定范疇進行關鍵詞的擴充,也即其擴充結果具有不確定性。
技術實現思路
本申請所要解決的技術問題是提供一種關鍵詞的擴充方法及裝置,能夠針對某一特定范疇進行關鍵詞的擴充,得到具有確定性的擴充結果。為了解決上述問題,本申請公開了一種關鍵詞的擴充方法,包括:獲取網頁樣本及對應的關鍵詞;依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別;對分類前后的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益;選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞。優選的,所述對分類前后的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益的步驟,包括:分別統計所有網頁樣本、范疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應范疇類別網頁樣本的數目;依據所述所有網頁樣本、范疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應范疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前后的信息熵;以每個關鍵詞在分類前后的信息熵的差值作為所述每個關鍵詞的信息增益。優選的,所述選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞的步驟,包括:依據信息增益對所有關鍵詞進行排序,并依據排序結果選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞。優選的,所述依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別的步驟,包括:針對某網頁樣本,判斷所述范疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為范疇類別,否則將該網頁樣本分類為非范疇類別;或者針對某網頁樣本,判斷所述范疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對于該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為范疇類別,否則將該網頁樣本分類為非范疇類別。優選的,所述獲取網頁樣本及對應的關鍵詞的步驟,包括:通過網頁爬蟲在互聯網上抓取網頁和網頁內容,對網頁內容進行分析并依據分析結果提取相應的關鍵詞;和/或從運營商的流量中提取搜索結果跳轉網頁及對應的關鍵詞;和/或從搜索引擎服務器記錄的搜索行為數據中提取搜索結果跳轉網頁及對應的關鍵 詞。優選的,所述方法還包括:返回執行所述依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別的步驟;所述依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別的步驟為,依據本次擴充前的范疇內已知關鍵詞和本次擴充得到的范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別。另一方面,本申請還公開了一種關鍵詞的擴充裝置,包括:獲取模塊,用于獲取網頁樣本及對應的關鍵詞;分類模塊,用于依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別;統計模塊,用于對分類前后的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益 '及選取模塊,用于選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞。優選的,所述統計模塊包括:數目統計子模塊,用于分別統計所有網頁樣本、范疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應范疇類別網頁樣本的數目;信息熵計算子模塊,用于依據所述所有網頁樣本、范疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應范疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前后的信息熵;及差值計算子模塊,用于以每個關鍵詞在分類前后的信息熵的差值作為所述每個關鍵詞的信息增益。優選的,所述選取模塊,具體用于依據信息增益對所有關鍵詞進行排序,并依據排序結果選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞。優選的,所述分類模塊包括:第一分類子模塊,用于針對某網頁樣本,判斷所述范疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為范疇類別,否則將該網頁樣本分類為非范疇類別;或者第二分類子模塊,用于針對某網頁樣本,判斷所述范疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對于該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為范疇類別,否則將該網頁樣本分類為非范疇類別。與現有技術相比,本申請具有以下優點:本申請依據范疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為范疇類別或者非范疇類別,對分類前后的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益,并選取信息增益最大的若干關鍵詞作為擴充得到的范疇內關鍵詞;一方面,由于依據范疇內已知關鍵詞進行關鍵詞的擴充,相當于引導計算機針對該范疇進行擴詞,故能夠得到具有確定性的擴充結果;另一方面,關鍵詞的信息增益可用于衡量關鍵詞分類能力的強弱,本申請選取的信息增益最大的若干關鍵詞為網頁中分類能力最強的關鍵詞,而本申請實施例中,網頁分類的目的是將網頁分類為范疇類別或非范疇類別,因此,網頁中分類能力最強的關鍵詞也即為與范疇相關度最聞的關鍵詞;總之,本申請能夠針對特定范疇,從眾多網頁樣本中選取出與該特定范疇相關度最高的關鍵詞,相對于現有技術,能夠針對某一特定范疇進行關鍵詞的擴充,得到更具有確定性的擴充結果。【專利附圖】【附圖說明】圖1是本本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【專利技術屬性】
技術研發人員:李鵬,羅峰,黃蘇支,李娜,
申請(專利權)人:億贊普北京科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。