本申請公開了一種基于質量控制的數據填充方法,根據數據庫中的已有數據確定空缺數據,構建數據庫的數據依賴關系并確定數據依賴關系的依賴可信度,根據已有數據和數據依賴關系確定空缺數據中的可推斷數據和至少一組不可推斷數據,并根據預設規則從至少一組不可推斷數據中確定一組待檢索數據,根據已有數據和數據依賴關系推斷可推斷數據并根據依賴可信度計算推斷可信度,推斷可信度大于預設閾值時填充可推斷數據,從外部資源中檢索待檢索數據并根據依賴可信度計算檢索可信度,檢索可信度大于預設閾值時填充待檢索數據。推斷和檢索交替執行能在較小的開銷下保證較高的填充準確率,且考慮了數據依賴關系的依賴可信度能夠使填充的數據的可信度較高。
【技術實現步驟摘要】
本申請設及數據庫處理
,特別是設及一種基于質量控制的數據填充方法 及系統。
技術介紹
通常,在各類數據庫的數據源中,往往會存在一些空缺信息,有些是因為原始數據 的缺失造成的,有些是因為操作上的失誤造成的。該些數據庫中的空缺信息會造成數據不 完整,是各類數據庫中一個較為普遍的問題,數據填充技術的提出就是希望通過一些技術 手段來估算、預測、或者找回數據源中的空缺信息。 現有的針對字符串型數據的數據填充方法通常可分為兩類;基于推理的數據填充 方法和基于檢索的數據填充方法。 基于推理的數據填充方法主要是結合一些給定的數據質量規則(比如 化nctional Dependencies屬性依賴關系),從數據集的其他部分推理出空缺處的空缺信 息。比如在一個地址數據集中,已知依賴關系"城市名稱可W決定省份名稱",在數據集其中 一個元組中寫著"學校='南京大學',城市='南京',省份='江蘇'",而另外一個元組寫著 "學校='南航',城市='南京',省份(即第二個元組的省份為空缺信息),那么我們 就可W根據依賴關系把第二個元組中空缺的省份填寫為"江蘇"。 基于檢索的數據填充方法主要是從外部資源比如網絡中檢索獲取空缺處的空缺 信息。當數據集中的空缺信息在萬維網中存在時,該方法可W準確查找到空缺信息并填充 到數據集中的空缺處。 然而,基于推理的數據填充方法的主要缺點體現在對于唯一的空缺信息的填補 上,也就是在數據集中的完整部分沒有出現與該空缺信息相應的信息的話,那么就不可能 準確地推斷和填充該空缺信息,造成數據填充的準確率低;而基于檢索的數據填充方法雖 然能夠準確填充空缺信息,提高數據填充的準確率,但其在對空缺信息進行檢索時,需要在 外部資源中進行海量的檢索查詢,該會產生大量的檢索查詢操作,相應地就會造成很大的 系統開銷。 而且,上述方法均未考慮數據集中的數據依賴關系的可信度導致填充的數據的質 量控制問題,會導致填充的數據的可信度不高。
技術實現思路
[000引有鑒于此,本申請提供一種基于質量控制的數據填充方法及系統,W實現在較小 的系統開銷下獲得較高的數據填充準確率,并且提高所填充的數據的可信度。 為了實現上述目的,本申請實施例提供的技術方案如下: 一種基于質量控制的數據填充方法,包括: 根據數據庫中的已有數據確定所述數據庫的空缺數據,構建所述數據庫的數據依 賴關系并確定所述數據依賴關系的依賴可信度,重復執行W下步驟,直至所述數據庫的空 缺數據被填充完畢: 根據所述數據庫中的已有數據和所述數據依賴關系確定所述數據庫的空缺數據 中的可推斷數據和至少一組不可推斷數據,并根據預設規則從所述至少一組不可推斷數據 中確定一組待檢索數據,根據所述數據庫中的已有數據和所述數據依賴關系推斷所述可推 斷數據并根據所述依賴可信度計算推斷可信度,在所述推斷可信度大于預設闊值時填充所 述可推斷數據,從所述數據庫的外部資源中檢索所述待檢索數據并根據所述依賴可信度計 算檢索可信度,在所述檢索可信度大于所述預設闊值時填充所述待檢索數據。 優選地,所述根據所述數據庫中的已有數據和所述數據依賴關系確定所述數據庫 的空缺數據中的可推斷數據和至少一組不可推斷數據,包括: 從所述數據庫的空缺數據中,根據所述數據庫中的已有數據和所述數據依賴關系 確定與所述數據庫中的已有數據存在數據依賴關系的空缺數據,作為所述數據庫的空缺數 據中的可推斷數據; 根據所述數據庫中的已有數據和所述數據依賴關系確定所述數據庫的空缺數據 之間的空缺數據依賴關系; W所述數據庫的各個空缺數據為節點,W各個空缺數據之間的空缺數據依賴關系 作為節點之間的有向邊,構建空缺數據依賴圖,并根據所述空缺數據依賴圖確定所述數據 庫的空缺數據中的至少一組不可推斷數據。 優選地,所述根據所述空缺數據依賴圖確定所述數據庫的空缺數據中的至少一組 不可推斷數據,包括: 從所述空缺數據依賴圖的各個節點中,將存在相同空缺數據依賴關系且互相之間 不存在任何數據依賴關系的節點合并為一個節點,進行節點合并; 節點合并之后,對于存在從多個節點指向自身的多個有向邊的節點,刪除從多個 節點指向自身的多個有向邊,生成簡化空缺數據依賴圖; 從所述簡化空缺數據依賴圖中,將只具有從自身出發指向其它節點的有向邊的節 點W及與其它節點之間不存在任何有向邊的節點集合對應的空缺數據作為所述數據庫的 空缺數據中的至少一組不可推斷數據;所述節點集合包括至少兩個節點。 優選地,所述根據預設規則從所述至少一組不可推斷數據中確定一組待檢索數 據,包括: 計算所述數據庫中的每個空缺數據的期望值;所述期望值是所述數據庫中的每個 數據成為空缺數據的概率; 根據計算得到的所述數據庫中的每個空缺數據的期望值,計算所述不可推斷數據 中的每個空缺數據的解鎖分數;所述解鎖分數用于評估所述不可推斷數據中的每個空缺數 據與所述不可推斷數據中的其它空缺數據之間的數據依賴關系的大小; 按照所述解鎖分數由大到小的順序依次選擇所述不可推斷數據中的空缺數據加 入檢索集合,直至所述不可推斷數據中的空缺數據或者在檢索集合中,或者通過檢索集合 中的空缺數據推斷得到時,將所述檢索集合中的空缺數據作為所述待檢索數據。 優選地,所述外部資源包括互聯網資源。 一種基于質量控制的數據填充系統,包括: 構建模塊,用于根據數據庫中的已有數據確定所述數據庫的空缺數據,構建所述 數據庫的數據依賴關系并確定所述數據依賴關系的依賴可信度;[002引填充模塊,用于重復執行W下步驟,直至所述數據庫的空缺數據被填充完畢: 根據所述數據庫中的已有數據和所述數據依賴關系確定所述數據庫的空缺數據 中的可推斷數據和至少一組不可推斷數據,并根據預設規則從所述至少一組不可推斷數據 中確定一組待檢索數據,根據所述數據庫中的已有數據和所述數據依賴關系推斷所述可推 斷數據并根據所述依賴可信度計算推斷可信度,在所述推斷可信度大于預設闊值時填充所 述可推斷數據,從所述數據庫的外部資源中檢索所述待檢索數據并根據所述依賴可信度計 算檢索可信度,在所述檢索可信度大于所述預設闊值時填充所述待檢索數據。 優選地,所述填充模塊,包括: 第一確定模塊,用于從所述數據庫的空缺數據中,根據所述數據庫中的已有數據 和所述數據依賴關系確定與所述數據庫中的已有數據存在數據依賴關系的空缺數據,作為 所述數據庫的空缺數據中的可推斷數據; 第二確定模塊,用于根據所述數據庫中的已有數據和所述數據依賴關系確定所述 數據庫的空缺數據之間的空缺數據依賴關系; 第=確定模塊,用于W所述數據庫的各個空缺數據為節點,W各個空缺數據之間 的空缺數據依賴關系作為節點之間的有向邊,構建空缺數據依賴圖,并根據所述空缺數據 依賴圖確定所述數據庫的空缺數據中的至少一組不可推斷數據。 優選地,所述第=確定模塊,包括: 節點合并單元,用于從所述空缺數據依賴圖的各個節點中,將存在相同空缺數據 依賴關系且互相之間不存在任何數據依賴關系的節點合并為一個節點,進行節點合并; 有向邊修剪單元,用于節點合并之后,對于存在從多個節點指向自身的多個有向 邊的節點,刪除從多個節點指向自身的多個有向邊,生成簡化空缺數據依賴圖; 查找單元,用于從所述簡化空缺數據依賴圖中,將只具有從自身出本文檔來自技高網...
【技術保護點】
一種基于質量控制的數據填充方法,其特征在于,包括:根據數據庫中的已有數據確定所述數據庫的空缺數據,構建所述數據庫的數據依賴關系并確定所述數據依賴關系的依賴可信度,重復執行以下步驟,直至所述數據庫的空缺數據被填充完畢:根據所述數據庫中的已有數據和所述數據依賴關系確定所述數據庫的空缺數據中的可推斷數據和至少一組不可推斷數據,并根據預設規則從所述至少一組不可推斷數據中確定一組待檢索數據,根據所述數據庫中的已有數據和所述數據依賴關系推斷所述可推斷數據并根據所述依賴可信度計算推斷可信度,在所述推斷可信度大于預設閾值時填充所述可推斷數據,從所述數據庫的外部資源中檢索所述待檢索數據并根據所述依賴可信度計算檢索可信度,在所述檢索可信度大于所述預設閾值時填充所述待檢索數據。
【技術特征摘要】
【專利技術屬性】
技術研發人員:李直旭,周劍,楊強,李洋,
申請(專利權)人:蘇州大學張家港工業技術研究院,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。