本發明專利技術實施例提供一種語義模糊匹配方法,所述方法包括:對語音識別后的文本進行特征提取,得到特征數據;用條件隨機場CRF模型對所述特征數據進行命名實體的識別,找到句子中關鍵語義類;對所述關鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關鍵語義類與詞典中關鍵詞的相似度,選擇相似度較大的關鍵詞替代所述關鍵語義類,并進行類別標注。本發明專利技術實施例利用統計的方法,即CRF進行序列標注,將查詢語句中的關鍵語義類進行初步標注和定位,縮小模糊匹配的范圍,然后再依照領域詞典,進行相似度計算,用相似度最大的詞典詞條來取代用戶查詢中出錯的關鍵語義類,減少了運算量,提高了識別的速度。
【技術實現步驟摘要】
本申請涉及語音識別領域,具體來說,涉及。
技術介紹
人機交互系統是由用戶通過口語提出查詢請求,系統提供信息服務。一個典型的人機交互系統包括自動語音識別,口語理解,對話管理和語音合成這四個組成部分。口語理解部分是將語音識別后的查詢語句轉化成相應的語義表示。然而,口語理解經常會遇到 這樣的問題,即用戶的查詢語句存在語音識別帶來的發音變異、識別錯誤和關鍵語義概念的不完整,如何在獲得部分關鍵信息的情況下仍能獲得正確的理解結果,這就需要用模糊匹配來提高系統的魯棒性。通常的人機交互服務都是限定在某些特定領域的,相關領域的數據都會保存在數據庫中。傳統的模糊匹配算法主要是在給定的文本串中找出與模式串匹配的子串的起始位置,多數是使用編輯距離作為相似性函數,這樣的方法中用戶查詢語句中的每個漢字都要參與運算,如果句子比較長,則運算速度將大大降低。
技術實現思路
針對現有技術中的問題,本專利技術實施例的目的在于提供,所述方法包括對語音識別后的文本進行特征提取,得到特征數據;用條件隨機場CRF模型對所述特征數據進行命名實體的識別,找到句子中關鍵語義類;對所述關鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關鍵語義類與詞典中關鍵詞的相似度,選擇相似度較大的關鍵詞替代所述關鍵語義類,并進行類別標注。優選地,所述計算所述關鍵語義類與詞典中關鍵詞的相似度,具體包括,用所述關鍵語義類的詞匯與關鍵詞的交集的漢字個數的兩倍除以所述關鍵語義類的詞匯與關鍵詞的所有漢字的個數之和,所得的商越大,相似度越高。優選地,所述CRF模型通過以下步驟獲得根據領域構造訓練數據,訓練數據盡可能覆蓋各種口語常見的說法;對訓練數據進行標注,即標注出訓練數據中實體名詞的類別;對訓練數據進行特征提取,提取出實體名詞;用CRF對提取的實體名詞進行訓練,得到CRF模型。優選地,所述方法還包括對所述經過類別標注的關鍵語義類進行語義理解,給出語義表示。優選地,所述相似度較大的關鍵詞為相似度最大的關鍵詞。優選地,所述關鍵詞為詞典詞條。本專利技術實施例利用統計的方法,即CRF(conditional random field,條件隨機場)進行序列標注,將查詢語句中的關鍵語義類進行初步標注和定位,縮小模糊匹配的范圍,然后再依照領域詞典,進行相似度計算,用相似度最大的詞典詞條來取代用戶查詢中出錯的關鍵語義類,減少了運算量,提高了識別的速度。附圖說明圖1是本專利技術實施例的口語理解系統示意圖;圖2是本專利技術實施例的語義模糊匹配方法的流程示意圖。具體實施例方式下面結合附圖和具體實施例對本專利技術進行詳細、清楚、完整的說明。顯然,所描述的實施例僅僅是本專利技術一部分實施例,而不是全部的實施例。基于本專利技術中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬于本專利技術保護的范圍。圖1是本專利技術實施例的口語理解系統示意圖。圖1中,語義的匹配和理解系統包括語音識別系統、語義類標注部分、語義理解部分。其中語義類標注備份又包括三個單元特征提取單元、精確匹配單元、模糊匹配單元。其中特征提取單元需要與CRF模型配合工作。 具體地,語義類標注部分需要對語音識別后的文本進行特征提取,然后通過一個訓練好的CRF模型進行命名實體的識別,找到句子中關鍵的語義概念,送入精確匹配部分進行類別標注,如果精確匹配失敗,則進入模糊匹配,通過計算已經標記出的實體名詞與詞典中關鍵詞的相似度,選擇最優的詞匯進行修正,并進行類別標注。然后送入語義理解部分,給出這個句子的語義表示,通過查詢數據庫給用戶進行反饋。要說明的是,這里的語音可以是人的語音,也可以是自然語音,在此不做特別限制。這里采用鏈狀結構的CRF圖模型,記觀測串為1=(禮界2,...而),標記串(狀態)序列為Y=(yl, y2,…yn),其定義如下P^y I 灰)= 7^exP(Z2XA(U ))Z(If) /(r k⑴其中fk是特征函數,Xk是對應的特征函數的權重,t是標記,Z (W)是歸一化因子,使得上述的概率分布在(0,I)之間。CRF的模型參數估計通常用L-BFGS算法來完成的。CRF的解碼過程,即為求解未知串標注的過程,需要搜索計算該串上的一個最大聯合概率,即Y* = argmaXyP (Y | ff) (2)在線性鏈CRF上,這個計算任務可以用Viterbi算法來完成。根據領域構造CRF的訓練數據,數據要盡可能覆蓋各種口語常見的說法,而且要包含本系統中所使用到的各種領域。對訓練數據進行標注,即標注出每個查詢語句中的實體名詞的類別。特征提取,為了更好的提取出涉及到的各種實體名詞(包括人名以及其他名詞),根據中文人名構詞的特點,我們建立了關于中國人名的姓氏用字和名字的常用字字典,用于構造特征模板。同時為了把人名和影視名更加準確的提取出來,通過大量數據統計出了出現在人名和影視名前后位置的單字和雙字,建立了人名和領域名的左右指界詞詞典,進行特征的提取。所述左右指界詞詞典指的是一句話中出現在人名或者領域名左右兩邊的詞匯。比如說我想聽劉德華的歌曲。劉德華是人名,出現在劉德華的左邊界詞是“聽”,右邊界詞是“的”,即為左右指界詞,也可以稱為左右邊界詞。用CRF對提取了特征的訓練數據進行訓練,得到一個CRF模型。要說明的是,條件隨機場的訓練使用的是開源工具CRF++ ;訓練的大致步驟包括按照訓練文本的格式進行特征的提取,因為針對的是口語,用詞作為研究對象可能會引入分詞的錯誤,所以選擇單字作為研究對象進行特征提取;選擇哪些特征不僅僅取決于用于已經提取了特征的訓練文本,還取決于工具中模板文件,即除了單字特征,還要用到特征之間的組合特征;訓練之后會得到一個模型文件;測試的過程是準備一個測試的文件,同樣需要提取特征,格式必須和訓練的文本文件一樣,然后用訓練好的模型進行測試,得到對于每個字的標注結果。針對用戶輸入的查詢語句,用上述方法進行特征提取并用已經訓練好的CRF模型進行實體識別,初步定位了句子中的關鍵語義類。已經定位好的關鍵語義類可能有錯誤,也可能沒有錯誤,這時首先進行精確匹配,即判斷CRF識別的語義類,領域字典中是否存在,如果不存在則進行模糊匹配。用Dice相似度對CRF識別的語義類與領域字典中的詞條進行相似度計算,Dice相似度計算公式如下⑶用兩個詞匯交集的漢字個數的兩倍去除以兩個詞匯長度的和。尋找相似度最大的詞條對原句中的錯誤進行替換,就完成了語義類的模糊匹配。圖2是本專利技術實施例的語義模糊匹配方法的流程示意圖。如圖2所示,所述方法包括步驟200,提取特征數據;具體為對語音識別后的文本進行特征提取,得到特征數據;步驟202,獲取關鍵語義類;具體為用條件隨機場CRF模型對所述特征數據進行命名實體的識別,找到關鍵語義類;步驟204,精確匹配,具體為對所述關鍵語義類進行精確匹配,在精確匹配成功時對所述關鍵語義類進行類別標注,并進入步驟208,語義理解,具體為對所述經過類別標注的關鍵語義類進行語義理解,給出語義表示。在步驟204中在精確匹配失敗時進入步驟206,進行模糊匹配,計算所述關鍵語義類與詞典中關鍵詞的相似度,選擇相似度較大的關鍵詞替代所述關鍵語義類,并進行類別標注,隨后再進入步驟208。優選地,所述計算所述關鍵語義類與詞典中關鍵詞的相似度,具體包本文檔來自技高網...
【技術保護點】
一種語義模糊匹配方法,其特征在于,所述方法包括:對語音識別后的文本進行特征提取,得到特征數據;用條件隨機場CRF模型對所述特征數據進行命名實體的識別,找到關鍵語義類;對所述關鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關鍵語義類與詞典中關鍵詞的相似度,選擇相似度較大的關鍵詞替代所述關鍵語義類,并進行類別標注。
【技術特征摘要】
1.一種語義模糊匹配方法,其特征在于,所述方法包括 對語音識別后的文本進行特征提取,得到特征數據; 用條件隨機場CRF模型對所述特征數據進行命名實體的識別,找到關鍵語義類; 對所述關鍵語義類進行精確匹配,在精確匹配失敗時進行模糊匹配,計算所述關鍵語義類與詞典中關鍵詞的相似度,選擇相似度較大的關鍵詞替代所述關鍵語義類,并進行類別標注。2.如權利要求1所述的語義模糊匹配方法,其特征在于,所述計算所述關鍵語義類與詞典中關鍵詞的相似度,具體包括,用所述關鍵語義類的詞匯與關鍵詞的交集的漢字個數的兩倍除以所述關鍵語義類的詞匯與關鍵詞的所有漢字的個數之和,所得的商越大,相似度越高。3.如權利要求1所述...
【專利技術屬性】
技術研發人員:張艷,李艷玲,徐為群,顏永紅,
申請(專利權)人:中國科學院聲學研究所,北京中科信利技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。