在問答期間在候選答案之間擴散證據可以識別第一候選答案和第二候選答案之間的關系,其中,候選答案是由問答計算機過程產生的,候選答案具有相關的支持證據,且候選答案具有相關的置信度評分。可以基于識別的關系將所有或部分證據從第一候選答案傳遞到第二候選答案。可以基于傳遞的證據來計算第二候選答案的新的置信度評分。
【技術實現步驟摘要】
【國外來華專利技術】
本申請一般涉及計算機和計算機應用,且更具體而言涉及人工智能和自然語言處理。
技術介紹
隨著在所有形式的自然語言文檔中捕獲到豐富的企業關鍵信息,只精讀包含用戶的兩個或三個關鍵詞的前10或20篇最知名的文檔的問題變得越來越明顯。在知名程度(popularity)并非很重要的相關性指標的企業中,情況尤其是這樣。本公開的專利技術人認識至IJ,企業計算機系統應深入分析相關內容的廣度,以更精確地回答自然語言問題并證明所述答案是正當的。開域問答(QA)問題是計算機科學和人工智能領域中最有挑戰性的問題之一,需要信息檢索、自然語言處理、知識表示和推理、機器學習以及人機接口的綜合。QA系統典型地對一給定問題產生若干個可能的候選答案,并使用各種算法基于其證據來對候選進行評級和評分。但是,QA系統典型地認為答案是互相獨立的,且即使有也很少探索候選者本身之間的關系。
技術實現思路
提供了一種用于在問答期間在候選答案之間擴散證據的方法和系統。在一方面,該方法可以包括識別第一候選答案和第二候選答案之間的關系,其中,候選答案是由問答計算機過程產生的,候選答案具有相關的支持證據,且候選答案具有相關的置信度評分。該方法還可以包括基于識別的關系將所有或部分證據從第一候選答案傳遞到第二候選答案。該方法還可以包括基于傳遞的證據來計算第二候選答案的新的置信度評分。在一方面,一種在問答期間在候選答案之間擴散證據的系統可以包括證據擴散模塊,其可操作以識別第一候選答案和第二候選答案之間的關系,其中,候選答案是由問答計算機過程產生的,候選答案具有相關的支持證據,且候選答案具有相關的置信度評分,該證據擴散模塊還可操作以基于識別的關系將所有或部分證據從第一候選答案傳遞到第二候選答案,該證據擴散模塊還可操作以基于傳遞的證據來計算第二候選答案的新的置信度評分。還可以提供一種存儲程序指令的計算機可讀存儲介質,所述程序指令可被機器執行,以執行這里描述的一種或多種方法。下面參考附圖來更詳細地描述其他特征以及各個實施例的結構和操作。在圖中,相同的參考標號表示相 同或功能類似的元素。附圖說明圖1是示出本公開的方法在一個實施例中的流程圖。圖2是可以實現本公開的一個實施例中的證據擴散系統的示例性計算機或處理系統的不意圖。圖3是示出本公開的一個實施例中的用于證據擴散的功能組件或模塊的框圖。圖4示出了本公開的一個實施例中的QA系統的高級架構。具體實施例方式在美國臨時專利公開號20110066587A1中描述了問答(QA)系統的例子。在本公開的一個實施例中,可以展示檢驗候選答案之間的聯系和/或關系的方法和/或系統。例如,QA系統或方法可以自動地確定候選答案。本公開的方法和/或系統可以使用該信息來確定正確的答案。一旦候選答案之間的關系已被確定,本公開的方法和/或系統在一個實施例中可以在候選者之間傳遞證據并使用該信息來對候選者進行重新評級。例如,考慮下列問題:a.如果你降落在ABC國際機場,你降落在這個國家(正確答案:XYZ)問題中提到的機場位于城市X,該城市在國家XYZ中。結果,可能存在用于城市X的大量文本證據,其可能淹沒用于國家XYZ的基于類型的證據,從而使得QA系統回答出X,即使這是錯誤的類型。即,X是城市類型而XYZ是國家類型;且答案應該是國家的名字,因為該問題所問的是國家而不是城市。為了解決上述問題,本公開的方法和/或系統在一個實施例中可以識別候選答案例如X和XYZ之間的一個或多個關系。識別的關系可以是“首都”、“位于”等。例如,X是XYZ的首都,X位于XYZ中, 或可以識別的任意其他關系?;谠撔畔ⅲ瑏碜灶愋筒徽_的候選的證據可被傳遞到類型正確的候選者,由此提高正確答案的置信度評分。圖1是示出本公開的方法在一個實施例中的流程圖。在102,例如由QA系統自動生成的兩個或更多個候選答案之間的一個或多個關系被識別。識別候選答案之間的關系可以包括在104詢問結構化知識庫。這可以包括映射候選答案。例如,參考上述例子,這可以包括將實體字符串“X”和“ΧΥΖ”映射到結構化知識庫中的相應資源,這本身是不簡單(non-trivial)的消除歧義的任務。例如,“X”可能還以是某個其他實體(例如漫畫、餐飲連鎖等)的名字,且本公開的系統和/或方法在一個實施例中可以查看更大的上下文(例如包含候選答案的支持段落),以確定該實體的正確含義。識別關系的另一方法可以是在106使用從非結構化文本中提取的淺詞法知識(shallow lexical knowledge),該淺詞法知識例如是使用一個或多個本體(ontology)提取的。例如,本公開的系統和/或方法可以在大型語料庫中查詢聯系實體X和XYZ的文本短語和/或關系(例如“首都”、“最大城市”等),并基于其頻率來對短語排序,以獲得最常見的關系。可使用其他方法識別候選答案之間的關系。在108,問題可被分析,并考慮答案類型信息以及線索和答案中的實體之間的關系,以確定在候選者之間傳遞或擴散證據的方向。僅為了解釋的目的來使用上述例子,因為問題問的是國家,而機場位于城市中,本公開的方法可以將證據從機場所在的城市傳遞到相應的國家。本公開的方法在一個實施例中可以基于在106找到的關系以及在108進行的分析將證據從候選者X擴散或傳遞到XYZ。證據擴散可以以若干種方式來執行。例如,可以通過在候選者之間傳遞特征評分來進行證據擴散。例如,針對候選答案計算的一個特征可以是“段落-文本-證據”。給定問題和候選答案,本公開的方法在一個實施例中可以度量找到多少支持候選答案是問題的答案的段落文本證據。該特征評分可以是數值一評分越高,候選者的文本證據越強。如果已針對證據擴散確定了一對候選答案Cl、C2,特征評分一在上述例子中是“段落-文本-證據”評分一可以從一個或候選者(例如Cl) “傳遞”到另一候選者(例如C2)。特征評分的“傳遞”可以以若干種方式來進行,例如,Cl上的較高特征評分可以簡單地覆蓋C2上的相應特征評分;或者來自Cl的特征評分可以被加到C2上的相應評分。特征評分的其他“傳遞”也是可能的。在線索(clue)的上下文中合適的特征子集可被傳遞。在上述例子中,將類型匹配的特征評分從X傳遞到XYZ沒有意義,而主要是位置特定的特征。本公開的方法還可以使用試探法基于在候選者之間發現的關系的類型和強度確定是按原樣傳遞整個特征評分,還是傳遞評分的某部分。例如,在X和XYZ之間可存在很強的地理關系,這形成用于擴散的較強理由,在該情形下整個特征評分可被傳遞。從一個候選答案向另一候選答案擴散或傳遞證據的另一方法可以是向候選者添加新特征以指示已經進行證據擴散,且特征評分基于擴散的量。這可以用上述例子來說明。繼續上述例子,除了特征“段落-文本-證據”,可以為每個候選者創建被稱為“已傳遞-段落-文本-證據”的另一特征。于是,在證據擴散過程中,本公開的方法可以使用后一特征來對傳遞了多少證據進行評分(例如,而不是如上所述將評分復制到前一特征)。例如,假設兩個候選者具有以下特征評分:在證據擴散 之前:權利要求1.一種計算機實現的方法,用于在問答期間在候選答案之間擴散證據,包括: 由處理器識別第一候選答案和第二候選答案之間的關系,其中,候選答案是由問答計算機過程產生的,候選答案具有相關的支持證據,且候選本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】...
【專利技術屬性】
技術研發人員:D·A·弗魯茨,D·C·貢德克,A·A·卡利安普,A·P·拉利,
申請(專利權)人:國際商業機器公司,
類型:
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。