提供用于生成用于信息領域的自然語言處理模型的方法和系統。該方法包括:從信息領域的源模型得出自然語言詞典的框架;應用定義概念和關系的語法規則的集合;以及基于來自信息領域的參考文檔擴展自然語言詞典的框架,以提供用于信息領域的自然語言處理模型,其中擴展框架包括對用于概念和關系的術語聚類和打分。
【技術實現步驟摘要】
【國外來華專利技術】生成用于信息領域的自然語言處理模型
本專利技術涉及生成自然語言處理模型的領域。具體而言,本專利技術涉及生成用于信息領域的自然語言處理模型。
技術介紹
現代業務分析和過程大量依賴于流過和圍繞業務流動的信息。核心業務過程信息包括來自諸如電子郵件、報告文檔、演示和即使消息之類的來源的事務數據和文本數據二者。這一信息可以視為流“過”業務的信息并且從經認證的團體內或者在經認證的團體內始發。這一信息的文本組成的相對重要性已經多年不斷增加并且現在被認同為很重要的組成。信息的文本組成這時由于難以創建用于理解這一非結構化的內容的自然語言處理(NLP)模型而大量未被處理。另外,Web2.0和社交媒體的問世已經產生來自應用的可能有巨大價值的“圍繞”業務流動的文本信息的次生泛濫,這些應用的范圍廣泛,如聊舉數例為產品標識新市場、理解品牌情緒和發現影響因素。高級NLP模型可能對業務具有的影響使得它是目前信息技術行業中的最快增長的需求之一。然而由于自然語言的復雜性,創建這樣的模型并不容易。自然語言處理(NLP)模型是如下術語,該術語用來描述向文本分析引擎的輸入的抽象化的集合的術語,從而它可以提取概念(命名的實體、比如“人”引用、“位置”引用等)和那些概念之間的關系(例如“住在”)。有了這些“事實”,可以暴露文本用于編程使用和過程自動化。事實在這一情況下的示例會是“約翰麥克格拉斯住在都柏林主街123號”或者“麥克格拉斯提供主街321號作為他的家庭地址”。這樣的模型很依賴于有待處理的輸入的“領域”。沒有“一刀切”模型,即使對于比如標識“人”的某些事物,也將在不同的文本來源中有可變的成功程度(由準確率或者精確率/查全率定義)。例如在醫療記錄中提及的“人”將很不同于在學術引用中提及的“人”。另外,在醫療記錄的情況下,理解“人”的子分類頗為重要,從而NLP系統會向任何具體人引用指派正確的語義子類、例如患者與外科醫生、私人內科醫生之間的差異等。開發和維護領域專屬NLP模型成本高。有用于開發這樣的NLP模型的兩種已知方式:1)人工基礎創建字列表和上下文規則以及2)基于機器學習的方式,這些方式需要標注的語料庫作為輸入,機器學習算法在該輸入上運行以“學習”特征,這些特征指示語義類向給定的文本跨度的指派。兩種已知方法頗為耗時,前者具有明確并且人工可調的優點,而后者是黑匣子、但是未提供較低的錄入禁止,因為對于標注任務僅需領域本身的知識,其中如在前者中那樣,也需要下層匹配技術的一些知識。因此,在本領域中需要解決前述問題。
技術實現思路
根據本專利技術的第一方面,提供了一種用于生成用于信息領域的自然語言處理模型的方法,該方法包括:從信息領域的源模型得出自然語言詞典的框架;應用語法規則的集入口 O從第一方面來看,本專利技術提供了一種用于生成用于信息領域的自然語言處理模型的方法,該方法包括:從信息領域的源模型得出自然語言詞典的框架;應用定義概念和關系的語法規則的集合;基于來自信息領域的參考文檔擴展自然語言詞典的框架,以提供用于信息領域的自然語言處理模型,其中擴展框架包括對用于概念和關系的術語進行聚類和打分。優選地,本專利技術提供了一種方法,其中得出自然語言詞典的框架使用信息領域中的優選術語。優選地,本專利技術提供了一種方法,其中應用語法規則的集合包括取得主語、謂語、賓語和可變順序以用于覆蓋。優選地,本專利技術提供了一種方法,其中擴展框架包括:選擇優選術語作為概念或者關系;在來自信息領域的參考文檔中執行對優選術語的關鍵字搜索;以及提供用于優選術語的潛在術語的有序集合。優選地,本專利技術提供了一種方法,該方法包括:確定局部η元語法;測量η元語法的一個或者多個度量;以及對η元語法打分。優選地,本專利技術提供了一種方法,其中擴展自然語言詞典的框架包括:基于來自信息領域的參考文檔得出進一步的語法規則;以及對語法規則與用于概念和關系的聚類的術語求交。優選地,本專利技術提供了一種方法,該方法包括:使用來自動詞的語言類的動詞結構以驅動向聚類的術語應用的交集。優選地,本專利技術提供了一種方法,其中擴展框架開始于起始概念或者關系,并且向外迭代地移出源模型中的鄰近概念或者關系鏈接;并且通過增大分數來細化概念和關系的擴展的術語。優選地,本專利技術提供了一種方法,該方法包括:使用分數閾值來確定用于概念或者關系的最佳術語的散度。優選地,本專利技術提供了一種方法,其中擴展框架基于結果動態地改變迭代策略。優選地,本專利技術提供了一種方法,其中得出自然語言詞典的框架是基于多于一個源模型。優選地,本專利技術提供了一種方法,其中得出自然語言詞典的框架利用開放數據以初始地填充框架,其中源模型的本體類被匹配于開放數據的類。從另一方面來看,本專利技術提供了 一種在計算機可讀介質上存儲并且可向數字計算機的內部存儲器中加載的計算機程序,該計算機程序包括當所述程序在計算機上運行時用于執行如以上描述的方法的軟件代碼部分。從另一方面來看,本專利技術提供了一種用于生成用于信息領域的自然語言處理模型的系統,該系統包括:處理器;框架部件,用于從信息領域的源模型得出自然語言詞典的框架;語法規則部件,用于應用定義概念和關系的語法規則的集合;擴展部件,用于基于來自信息領域的參考文檔擴展自然語言詞典的框架以提供用于信息領域的自然語言處理模型,其中擴展框架包括對用于概念和關系的術語聚類和打分。優選地,本專利技術提供了一種系統,其中用于應用語法規則的集合的語法規則部件包括取得主語、謂語、賓語和可變順序以用于覆蓋。優選地,本專利技術提供了一種系統,其中用于擴展框架的擴展部件包括部件,該部件包括概念/關系聚類部件,用于:選擇優選術語作為概念或者關系;在來自信息領域的參考文檔中執行對優選術語的關鍵字搜索;以及提供用于優選術語的潛在術語的有序集合。優選地,本專利技術提供了一種系統,其中概念/關系聚類部件用于:確定局部η元語法;測量η元語法的一個或者多個度量;以及對η元語法打分。優選地,本專利技術提供了一種系統,其中用于擴展自然語言詞典的框架的擴展部件包括:語法規則生成部件,用于基于來自信息領域的參考文檔得出進一步的語法規則;以及求交部件,用于對語法規則與用于概念和關系的聚類的術語求交。優選地,本專利技術提供了一種系統,其中用于擴展框架的擴展部件開始于起始概念或者關系,并且向外迭代地移出源模型中的鄰近概念或者關系鏈接;并且通過增大分數來細化概念和關系的擴展的術語。優選地,本專利技術提供了一種系統,其中用于擴展框架的擴展部件基于結果動態地改變迭代策略?!靖綀D說明】現在將參照附圖僅以示例方式描述本專利技術的優選實施例,在附圖中:圖1是根據本專利技術的優選實施例的方法的實施例的流程圖;圖2是根據本專利技術的優選實施例的圖1的方法的進一步細節的流程圖;圖3是根據本專利技術的優選實施例的系統的實施例的框圖;圖4是根據本專利技術的優選實施例的計算機系統的框圖;圖5是根據本專利技術的優選實施例的一方面的源模型的樹形圖;并且圖6是根據本專利技術的優選實施例的一方面的源模型的關系圖?!揪唧w實施方式】將理解為了說明的簡化和清楚,圖中所示單元未必按比例繪制各。例如,單元中的一些單元的尺度為了清楚而可以相對于其它單元被夸大。另外,在認為適合時,附圖標記可以在各圖之中重復以指示對應或者類似的特征。在以下具體描述中,闡述許多具體細節以便提供對本專利技術的透徹理解。然而本文檔來自技高網...
【技術保護點】
一種用于生成用于信息領域的自然語言處理模型的方法,包括:從所述信息領域的源模型(111)得出(101)自然語言詞典的框架;應用(102)定義概念和關系的語法規則的集合;基于來自所述信息領域的參考文檔擴展(103)所述自然語言詞典的所述框架,以提供用于所述信息領域的自然語言處理模型,其中擴展所述框架包括對用于概念和關系的術語聚類和打分。
【技術特征摘要】
【國外來華專利技術】2011.12.12 EP 11306635.11.一種用于生成用于信息領域的自然語言處理模型的方法,包括: 從所述信息領域的源模型(111)得出(101)自然語言詞典的框架; 應用(102)定義概念和關系的語法規則的集合; 基于來自所述信息領域的參考文檔擴展(103)所述自然語言詞典的所述框架,以提供用于所述信息領域的自然語言處理模型, 其中擴展所述框架包括對用于概念和關系的術語聚類和打分。2.根據權利要求1所述的方法,其中得出(101)自然語言詞典的框架使用所述信息領域中的優選術語。3.根據權利要求1或2所述的方法,其中應用(102)語法規則的集合包括取得主語、謂語、賓語和可變順序以用于覆蓋。4.根據權利要求1至3中任一項所述的方法,其中擴展(103)所述框架包括: 選擇(201)優選術語作為概念或者關系; 在來自所述信息領域的參考文檔中執行(202)對所述優選術語的關鍵字搜索;以及 提供(206)用于所述優選術語的潛在術語的有序集合。5.根據權利要求4所述的方法,包括: 確定(203)局部η元語法; 測量(204)所述η元語法的一個或者多個度量;以及 對所述η元語法打分(205)。6.根據前述權利要求中任一項所述的方法,其中擴展(103)所述自然語言詞典的所述框架包括: 基于來自所述信息領域的所述參考文檔得出進一步的語法規則;以及 對所述語法規則與用于概念和關系的聚類的所述術語求交。7.根據權利要求6所述的方法,包括: 使用來自動詞的語言類的動詞結構以驅動向聚類的術語應用的所述交集。8.根據前述權利要求中任一項所述的方法,其中擴展(103)所述框架開始于起始概念或者關系,并且向外迭代地移出所述源模型中的鄰近概念或者關系鏈接;并且 通過增大分數來細化概念和關系的擴展的所述術語。9.根據權利要求8所述的方法,包括: 使用分數閾值來確定用于概念或者關系的最佳術語的散度。10.根據前述權利要求中任一項所述的方法,其中擴展(103)所述框架基于結果動態地改變迭代策略。11.根據前述權利要求中任一項所述的方法,其中得出(101)自然語言詞典的框架是基于多于一個源模型(111)。12.根據前述權利要求中任一項所述的方法,其中得出(101)自...
【專利技術屬性】
技術研發人員:D·J·麥克洛斯基,D·博爾佩里,D·卡恩斯,
申請(專利權)人:國際商業機器公司,
類型:發明
國別省市:美國;US
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。