• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    新一代行業知識全文檢索方法技術

    技術編號:10106537 閱讀:219 留言:0更新日期:2014-06-01 21:00
    一種新一代行業知識全文檢索方法,1,構建分詞詞典:構建分詞詞典,并將詞典信息存入數據庫;2,構建全量索引:對已經存在的全文文檔“也稱為知識點文檔”進行讀取、分詞和分析,建立索引文件;3,構建增量索引:對新增的文檔進行處理,更新硬盤上的索引文件;4,構建內存索引,構建內存分詞詞典:將分詞詞典數據讀入內存,構建內存分詞詞典數據結構;步驟5,全文檢索,標準化用戶問題,分詞,語義理解,語義擴展,獲取候選文檔,排序候選文檔其中,系統初始化的時候,構建分詞詞典;構建全量索引:讀取所有的知識點文檔,全量構建硬盤索引文件“簡稱索引文件”;新增全文文檔的時候,構建增量索引,這三個活動,獨立于全文檢索模塊,獨立運行。

    【技術實現步驟摘要】
    【專利摘要】一種,1,構建分詞詞典:構建分詞詞典,并將詞典信息存入數據庫;2,構建全量索引:對已經存在的全文文檔“也稱為知識點文檔”進行讀取、分詞和分析,建立索引文件;3,構建增量索引:對新增的文檔進行處理,更新硬盤上的索引文件;4,構建內存索引,構建內存分詞詞典:將分詞詞典數據讀入內存,構建內存分詞詞典數據結構;步驟5,全文檢索,標準化用戶問題,分詞,語義理解,語義擴展,獲取候選文檔,排序候選文檔其中,系統初始化的時候,構建分詞詞典;構建全量索引:讀取所有的知識點文檔,全量構建硬盤索引文件“簡稱索引文件”;新增全文文檔的時候,構建增量索引,這三個活動,獨立于全文檢索模塊,獨立運行。【專利說明】
    本專利技術涉及全文檢索領域,尤其是行業知識的全文檢索領域,提出了一種新的行業知識全文檢索系統和方法。
    技術介紹
    全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。全文檢索是一種將文件中所有文本與檢索項匹配的文字資料檢索方法。全文檢索系統是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統。全文檢索是將存儲于數據庫中整本書、整篇文章中的任意內容信息查找出來的檢索。它可以根據需要獲得全文中有關章、節、段、句、詞等信息,也可以進行各種統計和分析。例如,它可以回答“《紅樓夢》一書中“林黛玉” 一共出現多少次? ”的問題。傳統的全文檢索系統只是基于關鍵字、關鍵詞的匹配,缺乏英文、拼音、錯別字、同義詞、近義詞等多方位的語義識別和糾錯的能力。隨著客戶需求的智能要求越來越高,傳統的全文檢索系統越發顯得落后。為了解決存在的問題,急需一種新的全文檢索系統,它可以讓檢索更智能,具體表現為:可以實現最普遍的拼音、漢字、英文互相表達,比如用戶輸入“shengka”,系統可以理解出,用戶可能查詢的內容是“聲卡”;可以實現錯別字糾錯,可以實現語義理解和語義擴充。如:用戶輸入“商務領航”、“上午領航”、“shangmilinghang”、“Shwlh”都可達到“商務領航”的搜索效果;用戶輸入“寬帶怎么辦理”、“怎么安裝寬帶”、“給俺弄個寬帶”、“我想開通寬帶”等等意思相近的甚至口語化的檢索形式,也能正確返回相關“寬帶辦理”的答案。
    技術實現思路
    針對上述問題,本專利技術在傳統的基于關鍵字、詞匹配的全文檢索系統基礎上,增加了英文、拼音、錯別字、同義詞、近義詞等多方位的語義識別和糾錯功能,又增加了上下位、屬性識別等語義擴展能力。本專利技術是一款具有語義理解語義擴展功能的全文檢索系統。技術方案:為了解決以上問題本專利技術提供了一種,其特征在于:包括以下步驟: 步驟1,構建分詞詞典:構建分詞詞典,并將詞典信息存入數據庫; 步驟2,構建全量索引:對已經存在的全文文檔“也稱為知識點文檔”進行讀取、分詞和分析,建立索引文件; 步驟3,構建增量索引:對新增的文檔進行處理,更新硬盤上的索引文件; 步驟4,構建內存索引,包括: 步驟4-1,構建內存分詞詞典:將分詞詞典數據讀入內存,構建內存分詞詞典數據結構; 步驟4-2,構建全量內存索引:從硬盤上讀取索引文件,全量構建內存索引; 步驟4-3,構建增量內存索引:對新增的文檔進行處理,實現內存索引增量更新; 步驟5,全文檢索,包括: 步驟5-1,標準化用戶問題:接受用戶咨詢的問題并進行標準化處理“也稱規范化 處理”,去掉冗余詞、去掉不影響語義信息的沒用的標點符號,識錯糾錯、別稱標準化; 步驟5-2,分詞:對標準化后的問題進行分詞; 步驟5-3,語義理解:對分詞結果進行處理,提取出問題中出現的分詞的所屬詞類或 者標準詞,獲取分詞語義信息; 步驟5-4,語義擴展:對分詞語義信息進行語義擴展,得到擴展后的語義信息,這些 語義擴展信息,使用一些詞或詞類表示; 步驟5-5,獲取候選文檔:利用語義擴展后得到的詞或者詞類“這些詞或詞類代表 擴展后的語義信”,根據內存索引信息,搜索相應的全文文檔,作為候選文檔; 步驟5-6,排序候選文檔:對候選文檔進行多角度的評分排名,評分越高,排名越 靠前,排序后的候選文檔成為最終的全文檢索結果; 其中,系統初始化的時候,構建分詞詞典;構建全量索引:讀取所有的知識點文檔,全量構建硬盤索引文件“簡稱索引文件”;新增全文文檔的時候,構建增量索引。這三個活動,獨立于全文檢索模塊,獨立運行。步驟I所述的構建分詞詞典,主要是實現分詞詞典的構建,構建的分詞詞典是“二級分詞詞典”,其構造方法如下: 步驟1-1,根據《通用分詞詞表》+《業務詞表》,構成一級分詞; 其中,《通用分詞詞表》采用中科院計算所詞表作為通用分詞詞表,《業務詞表》包含了行業相關的專有名詞,可通過導入行業內的業務名稱構建; 步驟1-2,自動將一級分詞進行細分,構成候選二級分詞; 步驟1-3,人工篩選候選二級分詞; 構建后的二級分詞詞典格式如下:一級分詞二級分詞數組(用I分割)。步驟2所述的構建全量索引,主要功能是實現數據索引文件的全量構建,其主要過程如下: 步驟2-1,讀取每一個知識點文檔,對知識點文檔進行分詞:分詞過程中將普通的分詞詞典和具有了語義關系的上下位詞典結合在一起,產生了多組分詞結果,并且根據每組結果中所包含的詞的個數以及詞的長度進行了排序,分詞的時候,按行讀取,然后在將每一行按照一些標點符號進行截取,得到小段的文字,依照分詞詞典和上下位詞類“所謂詞類就是具有同樣或者相近意思的一組詞的一個統稱”詞典進行分詞,對于到底是用詞類還是用詞來建立索引,做了以下的規定, ①如果一個詞有詞類并且只有一個詞類“并且不是冗余詞類”那么就用詞類名來建立索引; ②如果一個詞有詞類并且不止一個,則需要對這個詞的每一個詞類“不包含冗余詞類”建立索引; ③如果一個詞在詞典中,但是不存在詞類,就用這個詞的本事來建立索引; ④如果一個詞在詞典中,并且是冗余詞類,則不對其建立索引;步驟2-2,建立索引,對每個詞/詞類建立索引結構。所述的步驟2-2還包括以下步驟: 步驟2-2-1,建立索引文件:索引是一種用來從索引詞找到對應文檔的方法,英文文本中單詞直接用空白分隔進行分詞,中文文本采用中國科學院計算技術研究所的分詞工具ICTClass進行中文分詞,分詞后產生的詞作為索引詞直接進行詞級或詞類級的索引; 索引構建中采用倒排文件“inverted file”方式建立,其處理過程是:依次處理每篇文檔記錄它包含的每個詞的出現位置,同時詞屬于詞類,這樣對每篇文檔中出現的每個詞可以產生一個三元組〈DocID(文檔 ID), TermID (詞 ID) |WordClassID (詞類 ID),Positions(多個位置信息)>,其中Positions代表索引詞TermID在DocID中出現的位置, 索引結構包括: 〈ItemID I WordClassID (詞ID詞類ID),〈DocID (文檔的ID),〈詞在文檔中的起始位置和所在的行數 < 索引對象>>>> 此結本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】

    【專利技術屬性】
    技術研發人員:王衛民符建輝王石
    申請(專利權)人:鎮江諾尼基智能技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产精品无码久久久不卡| 亚洲成av人片天堂网无码】| 国产白丝无码免费视频| 中文字幕无码免费久久| 国产精品多人p群无码| 久久久久亚洲AV无码专区首JN| 大胆日本无码裸体日本动漫| 日韩av无码中文无码电影| 无码一区18禁3D| 日木av无码专区亚洲av毛片| 无码人妻AⅤ一区二区三区水密桃| 免费人妻无码不卡中文字幕系 | 亚洲国产精品无码久久九九 | 精品无码久久久久久久动漫 | 亚洲中文字幕无码爆乳AV| 亚洲精品无码久久久久APP | 亚洲av永久无码精品秋霞电影秋 | 亚洲Av无码国产情品久久| 精品无码无人网站免费视频| 国产午夜精华无码网站| 亚洲成av人片不卡无码久久| 无码夫の前で人妻を侵犯| 无码人妻黑人中文字幕| 成人午夜亚洲精品无码网站 | 亚洲无码一区二区三区| 无码精品A∨在线观看| 免费无码又爽又刺激网站直播| 无码人妻丰满熟妇啪啪网站牛牛| 午夜福利无码不卡在线观看| 国产色无码精品视频免费| 丰满日韩放荡少妇无码视频| 无码高潮少妇毛多水多水免费| 国产精品无码一区二区在线观| 亚洲私人无码综合久久网| 亚洲中文无码线在线观看| 精品无码人妻夜人多侵犯18| 久久无码人妻一区二区三区| 无码乱人伦一区二区亚洲一| 免费无码一区二区三区| 亚洲国产精品无码久久九九大片| 亚洲av永久中文无码精品综合 |