本發明專利技術公開了一種新聞主題分類方法,其特征在于,包括如下步驟:步驟一:根據新聞的主題類別建立種子詞典;步驟二:對新聞的標題進行分詞處理,提取標題關鍵詞;步驟三:通過多個基于互聯網的搜索引擎服務器對所述標題關鍵詞進行元搜索;步驟四:在元搜索的結果中對所述種子關鍵詞進行頻次統計;步驟五:根據元搜索的結果中種子關鍵詞出現的頻次判定新聞最終的主題類別。本發明專利技術的一種新聞主題分類方法可以大大縮短分類時間,有效降低人工成本,且對歷史數據不產生依賴性,整個分類過程所用的時間更短,分類結果也更加可靠,可以對新聞進行多類分類,在實際情形中更具通用性。
【技術實現步驟摘要】
本專利技術涉及,具體涉及一種利用計算機技術對互聯網上的新聞進行主題分類的方法,本專利技術屬于計算機
。
技術介紹
隨著現代科學技術的進步以及互聯網技術的高速發展,互聯網上的信息資源在不斷地呈爆炸性增長。如何從這些海量的資源中快速精準地獲取所需要的信息已成為互聯網用戶所關心的一個亟待解決的問題。同時,該問題也成為信息處理領域的一大挑戰性課題。為了能夠有效地組織和管理海量電子信息,使用戶能夠快速方便地獲取所需要的資源,研究者提出了文本檢索、文本分類、主題概念識別等多種信息組織和處理技術。在上述技術中,人工智能領域中的文本自動分類技術已經在多個領域得到了廣泛應用,并取得了顯著的成果。文本自動分類是人工智能和自然語言處理領域中的一個重要研究方向,其主要思想是在指定的分類體系下,計算機根據文本的內容來自動判定所屬類別。該技術可以彌補傳統搜索引擎技術的不足,過濾用戶不需要的信息,方便用戶快速精確地查找所需要的內容。本專利技術涉及一種新的文本自動分類方法,主要目標是對互聯網上發表的新聞進行快速精確地主題分類。新聞主題分類是根據所設定的主題類別對新聞進行文本自動分類的過程。新聞的主題即是最終分類的類別。新聞主題分類在互聯網諸多的門戶網站上得到了廣泛地應用,例如,大型新聞門戶網站新浪網上的新聞被劃分為社會、軍事、體育、娛樂等主題類別。目前,已有的主題分類技術主要集中于人工標注和機器學習兩種方法。人工標注方法主要是借助于人工的分類經驗對新聞進行手動主題類別標注。該類方法的優點是可以獲得較高的分類準確率,缺點是時間代價和人工成本太高。機器學習方法是利用人工智能領域中的機器學習算法對已標注主題類別的新聞內容進行學習和訓練,建立相應的分類模型,進而利用模型實現計算機自動主題分類。該類方法可以有效地降低時間代價和人工成本,但精確性往往受限于所選擇的機器學習算法的適用性和所使用的歷史數據的質量。此夕卜,該類方法需要計算機從歷史數據中進行知識學習和訓練,如果所使用的歷史數據規模較大,則需要花費很高的時間代價進行學習和訓練,而如果所使用的歷史數據規模較小,則所建立的分類模型的精確性會大打折扣。如何在分類時間和分類準確率之間進行有效權衡,是現有技術亟需解決的技術問題。
技術實現思路
為解決現有技術的不足,本專利技術的目的在于提供。為了實現上述目標,本專利技術采用如下的技術方案:,其特征在于,包括如下步驟:步驟一:根據新聞的主題類別建立種子詞典,所述種子詞典中包括主題類別和種子關鍵詞,一個種子關鍵詞對應一個主題類別,每個主題類別對應有多個種子關鍵詞;步驟二:對新聞的標題進行分詞處理,提取標題關鍵詞;步驟三:通過多個基于互聯網的搜索引擎服務器對所述標題關鍵詞進行元搜索;步驟四:在元搜索的結果中對所述種子關鍵詞進行頻次統計;步驟五:根據元搜索的結果中種子關鍵詞出現的頻次判定新聞最終的主題類別。前述的,其特征在于,所述步驟二包括:提取新聞標題中字符個數大于I的詞元作為標題關鍵詞。前述的,其特征在于,所述步驟三包括:步驟3a:根據搜索引擎的字符編碼對查詢關鍵詞進行編碼處理;步驟3b:拼接向搜索引擎服務器提交的請求URL ;步驟3c:向搜索引擎服務器提交URL請求并返回搜索結果;步驟3d:合并多個搜索引擎返回的搜索結果,以作為元搜索的結果。前述的,其特征在于,所述步驟3c包括:利用編程語言提供的網絡通訊工具包向搜索引擎服務器提交URL請求并返回搜索結果。前述的,其特征在于,所述步驟五包括:步驟5a:對于任意一個主題類別,先計算所述主題類別對應的每個種子關鍵詞在元搜索的結果中出現的頻次,然后統計所述主題類別對應的所有種子關鍵詞在元搜索的結果中出現的總頻次,將所述主題類別對應的所有種子關鍵詞在元搜索的結果中出現的總頻次作為所述主題類別在元搜索的結果中出現的頻次;步驟5b:重復步驟5a,直到得到每一個主題類別在元搜索的結果中出現的頻次;步驟5c:如果所述元搜索的結果中存在一個出現頻次最多的主題類別,則判定所述出現頻次最多的主題類別作為新聞最終的主題類別;如果所述元搜索的結果中存在多個頻次并列最多的主題類別,則將所述頻次并列最多的主題類別均作為新聞最終的主題類別。本專利技術的有益之處在于:本專利技術的可以大大縮短分類時間,有效降低人工成本,且對歷史數據不產生依賴性,整個分類過程所用的時間更短,分類結果也更加可靠,可以對新聞進行多類分類,在實際情形中更具通用性。【附圖說明】圖1是本專利技術的優選流程示意圖;圖2是本專利技術中對新聞標題進行元搜索的流程圖。【具體實施方式】以下結合附圖和具體實施例對本專利技術作具體的介紹。參照圖1所示,本專利技術,包括如下步驟:步驟一:根據新聞的主題類別建立種子詞典,種子詞典中包括主題類別和種子關鍵詞,一個種子關鍵詞對應一個主題類別,每個主題類別對應有多個種子關鍵詞;步驟二:對新聞的標題進行分詞處理,提取標題關鍵詞;步驟三:通過多個基于互聯網的搜索引擎服務器對標題關鍵詞進行元搜索;步驟四:在元搜索的結果中對種子關鍵詞進行頻次統計;步驟五:根據元搜索的結果中種子關鍵詞出現的頻次判定新聞最終的主題類別。如圖1所示,本專利技術首先根據新聞的主題類別篩選一些能代表主題類別的種子關鍵詞,并根據種子關鍵詞與主題類別之間的對應關系建立種子詞典。接著,讀取新聞標題,并對其進行中文分詞,優選提取新聞標題中字符個數大于I的詞元作為標題關鍵詞。將標題關鍵詞作為查詢關鍵詞并利用計算機自動采集技術從多個搜索引擎進行信息搜索,返回合并各搜索引擎的搜索結果。對于每個主題類別分別統計其對應種子關鍵詞在搜索結果中出現的頻次,選擇種子關鍵詞出現總頻次最高的主題類別為新聞最終的主題類別。本專利技術中,篩選種子關鍵詞遵循的主要原則是篩選的種子關鍵詞既需要有代表性又需要有很好的區分能力,例如,“社會”主題的種子關鍵詞可以是:民生、民情、案件、城管、拖欠、農民工、干旱、貪污、拆遷、上訪、罷工...;“財經”主題的種子關鍵詞可以是:投資、理財、銀行、基金、股市、財富、商業、貿易...;“體育”主題的種子關鍵詞可以是:英超、意甲、運動員、國家隊、中鋒、后衛、世界杯...,其它主題類別的種子關鍵詞的篩選與此類似,可以根據人工分類經驗進行有效設定。在篩選出種子關鍵詞之后,可以建立起關鍵詞與主題類別之間的對應關系(種子詞典),一個種子關鍵詞對應一個主題類別,每個主題類別對應有多個種子關鍵詞。本專利技術中,對新聞的標題進行中文分詞處理是將新聞的標題中連續的字序列按照一定的規范重新組合成詞序列的過程,例如,對“南京城管沉默執法逼退小攤販引網友熱議”這個標題進行中文分詞處理,可以得到如下詞元列表:南京、城管、沉默、執法、逼退、小攤販、引、網友、熱議。取所含字符個數大于I的詞元作為標題關鍵詞以用于后續的元搜索。形式如下表一的一種種子詞典所不:表一:一種種子詞典·本文檔來自技高網...
【技術保護點】
一種新聞主題分類方法,其特征在于,包括如下步驟:步驟一:根據新聞的主題類別建立種子詞典,所述種子詞典中包括主題類別和種子關鍵詞,一個種子關鍵詞對應一個主題類別,每個主題類別對應有多個種子關鍵詞;步驟二:對新聞的標題進行分詞處理,提取標題關鍵詞;步驟三:通過多個基于互聯網的搜索引擎服務器對所述標題關鍵詞進行元搜索;步驟四:在元搜索的結果中對所述種子關鍵詞進行頻次統計;步驟五:根據元搜索的結果中種子關鍵詞出現的頻次判定新聞最終的主題類別。
【技術特征摘要】
1.一種新聞主題分類方法,其特征在于,包括如下步驟: 步驟一:根據新聞的主題類別建立種子詞典,所述種子詞典中包括主題類別和種子關鍵詞,一個種子關鍵詞對應一個主題類別,每個主題類別對應有多個種子關鍵詞; 步驟二:對新聞的標題進行分詞處理,提取標題關鍵詞; 步驟三:通過多個基于互聯網的搜索引擎服務器對所述標題關鍵詞進行元搜索; 步驟四:在元搜索的結果中對所述種子關鍵詞進行頻次統計; 步驟五:根據元搜索的結果中種子關鍵詞出現的頻次判定新聞最終的主題類別。2.根據權利要求1所述的一種新聞主題分類方法,其特征在于,所述步驟二包括:提取新聞標題中字符個數大于I的詞元作為標題關鍵詞。3.根據權利要求2所述的一種新聞主題分類方法,其特征在于,所述步驟三包括: 步驟3a:根據搜索引擎的字符編碼對查詢關鍵詞進行編碼處理; 步驟3b:拼接向搜索引擎服務器提交的請求URL ; 步驟3c:向搜索引擎服務器提交URL請求并返回搜索結果; 步驟3d:合并多個搜...
【專利技術屬性】
技術研發人員:歐吉順,周楚新,張偉,
申請(專利權)人:南京綠色科技研究院有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。