The present invention provides a method and a device for the knowledge base of three tuple inspection, by obtaining the extended three tuple rules, according to the initial factor function and EM algorithm to determine the factor function of the corresponding rules, and according to the factor function to determine the extended three tuple is credible, and to determine whether the extended three tuple into the knowledge base in the knowledge base to expand and improve the accuracy of knowledge base expansion.
【技術實現步驟摘要】
知識庫三元組檢驗的方法與裝置
本專利技術涉及知識庫擴充技術,尤其涉及一種知識庫三元組檢驗的方法與裝置。
技術介紹
知識庫是一種以三元組的形式結構化地存儲知識的數據庫,用于對某一領域或者某一行業中海量知識進行結構化地存儲。例如,一個歷史知識庫可以存儲歷史領域中的海量知識,包括各個歷史人物、歷史事件等。知識庫以實例為主要描述對象,采用面向對象的方法表示知識,一個實例是對現實中一個具體或抽象事務的指代。例如,實例可以表示一個人物,也可以表示一座城市、一件事情等。一個知識庫通常包括多個實例,實例的多個屬性以及各個實例之間的關系均采用三元組的結構存儲。三元組是知識庫中用于表示知識的基礎結構。它的結構可以表示為<第一語句,關系語句,第二語句>,關系語句用于表示所述第一語句和所述第二語句之間的關系。知識庫擴充是指在原知識庫不完備的情況下,通過數據挖掘的方法,利用已知的表示知識的三元組預測未知的三元組,以在原知識庫中擴展新的三元組,使得知識庫更加完備。因此,檢驗新的三元組是否可信成為亟需解決的技術問題。
技術實現思路
本專利技術提供一種知識庫三元組檢驗的方法與裝置,以解決現有技術中擴展的三元組不可信等缺陷。本專利技術第一個方面提供一種知識庫三元組檢驗的方法,包括:獲取擴展三元組對應的規則,所述擴展三元組是基于現有知識庫中的原三元組和所述規則進行擴展操作得到的三元組,所述擴展三元組包括至少由第一語句、關系語句、第二語句組成的有序集合,所述關系語句用于表示所述第一語句和所述第二語句之間的關系;確定所述規則對應的因子函數,所述因子函數用于表示所述規則是否正確的概率,所述 ...
【技術保護點】
一種知識庫三元組檢驗的方法,其特征在于,包括:獲取擴展三元組對應的規則,所述擴展三元組是基于現有知識庫中的原三元組和所述規則進行擴展操作得到的三元組,所述擴展三元組包括至少由第一語句、關系語句、第二語句組成的有序集合,所述關系語句用于表示所述第一語句和所述第二語句之間的關系;確定所述規則對應的因子函數,所述因子函數用于表示所述規則是否正確的概率,所述因子函數是根據初始因子函數和EM算法獲得的;根據所述因子函數確定所述擴展三元組是否可信。
【技術特征摘要】
1.一種知識庫三元組檢驗的方法,其特征在于,包括:獲取擴展三元組對應的規則,所述擴展三元組是基于現有知識庫中的原三元組和所述規則進行擴展操作得到的三元組,所述擴展三元組包括至少由第一語句、關系語句、第二語句組成的有序集合,所述關系語句用于表示所述第一語句和所述第二語句之間的關系;確定所述規則對應的因子函數,所述因子函數用于表示所述規則是否正確的概率,所述因子函數是根據初始因子函數和EM算法獲得的;根據所述因子函數確定所述擴展三元組是否可信。2.根據權利要求1所述的方法,其特征在于,所述根據所述因子函數確定所述擴展三元組是否可信包括:根據置信傳播和所述因子函數確定所述擴展三元組對應的第一概率分布和第二概率分布,所述第一概率分布用于表示所述擴展三元組應該可信的概率,所述第二概率分布用于表示所述擴展三元組不可信的概率,且所述第二概率分布=1-所述第一概率分布;根據目標概率分布和預設閾值確定所述擴展三元組是否可信,所述目標概率分布為所述第一概率分布或所述第二概率分布。3.根據權利要求2所述的方法,其特征在于,所述根據目標概率分布和所述預設閾值確定所述擴展三元組是否可信包括:若所述預設閾值為可信的閾值,則所述目標概率分布為第一概率分布,若所述目標概率分布大于或等于所述預設閾值,則確定所述擴展三元組可信;若所述目標概率分布小于所述預設閾值,則確定所述擴展三元組不可信;若所述預設閾值為不可信的閾值,則所述目標概率分布為第二概率分布,若所述目標概率分布大于或等于所述預設閾值,則確定所述擴展三元組不可信;若所述目標概率分布小于所述預設閾值,則確定所述擴展三元組可信。4.根據權利要求1-3中任一項所述的方法,其特征在于,所述確定所述規則對應的因子函數包括:根據如下公式確定通過所述EM算法進行迭代操作之后的所述因子函數f(t+1):f(t+1)=f(t)*[f’(t)/p(t)];其中,f(t)表示所述因子函數在第t輪的取值,t為大于或等于0的正整數且t的初始值為0,f(0)為初始化的因子函數的值,f’(t)表示所述因子函數在t輪的經驗分布,p(t)表示所述因子函數在第t輪的采樣分布,所述經驗分布和所述采樣分布是在EM算法進行迭代操作過程中得到的。5.根據權利要求4所述的方法,其特征在于,所述迭代操作在f(t)的值不再發生變化時停止。6...
【專利技術屬性】
技術研發人員:趙偉華,張日崇,
申請(專利權)人:北京航空航天大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。