一種基于質量控制的數據填充方法及系統技術方案

技術編號：11993399 閱讀：216 留言：0更新日期：2015-09-02 21:23

本申請公開了一種基于質量控制的數據填充方法，根據數據庫中的已有數據確定空缺數據，構建數據庫的數據依賴關系并確定數據依賴關系的依賴可信度，根據已有數據和數據依賴關系確定空缺數據中的可推斷數據和至少一組不可推斷數據，并根據預設規則從至少一組不可推斷數據中確定一組待檢索數據，根據已有數據和數據依賴關系推斷可推斷數據并根據依賴可信度計算推斷可信度，推斷可信度大于預設閾值時填充可推斷數據，從外部資源中檢索待檢索數據并根據依賴可信度計算檢索可信度，檢索可信度大于預設閾值時填充待檢索數據。推斷和檢索交替執行能在較小的開銷下保證較高的填充準確率，且考慮了數據依賴關系的依賴可信度能夠使填充的數據的可信度較高。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請設及數據庫處理
，特別是設及一種基于質量控制的數據填充方法及系統。
技術介紹
通常，在各類數據庫的數據源中，往往會存在一些空缺信息，有些是因為原始數據的缺失造成的，有些是因為操作上的失誤造成的。該些數據庫中的空缺信息會造成數據不完整，是各類數據庫中一個較為普遍的問題，數據填充技術的提出就是希望通過一些技術手段來估算、預測、或者找回數據源中的空缺信息。現有的針對字符串型數據的數據填充方法通常可分為兩類；基于推理的數據填充方法和基于檢索的數據填充方法。基于推理的數據填充方法主要是結合一些給定的數據質量規則（比如化nctional Dependencies屬性依賴關系），從數據集的其他部分推理出空缺處的空缺信息。比如在一個地址數據集中，已知依賴關系"城市名稱可W決定省份名稱"，在數據集其中一個元組中寫著"學校='南京大學'，城市='南京'，省份='江蘇'"，而另外一個元組寫著 "學校='南航'，城市='南京'，省份(即第二個元組的省份為空缺信息），那么我們就可W根據依賴關系把第二個元組中空缺的省份填寫為"江蘇"。基于檢索的數據填充方法主要是從外部資源比如網絡中檢索獲取空缺處的空缺信息。當數據集中的空缺信息在萬維網中存在時，該方法可W準確查找到空缺信息并填充到數據集中的空缺處。然而，基于推理的數據填充方法的主要缺點體現在對于唯一的空缺信息的填補上，也就是在數據集中的完整部分沒有出現與該空缺信息相應的信息的話，那么就不可能準確地推斷和填充該空缺信息，造成數據填充的準確率低；而基于檢索的數據填充方法雖然能夠...

【技術保護點】
一種基于質量控制的數據填充方法，其特征在于，包括：根據數據庫中的已有數據確定所述數據庫的空缺數據，構建所述數據庫的數據依賴關系并確定所述數據依賴關系的依賴可信度，重復執行以下步驟，直至所述數據庫的空缺數據被填充完畢：根據所述數據庫中的已有數據和所述數據依賴關系確定所述數據庫的空缺數據中的可推斷數據和至少一組不可推斷數據，并根據預設規則從所述至少一組不可推斷數據中確定一組待檢索數據，根據所述數據庫中的已有數據和所述數據依賴關系推斷所述可推斷數據并根據所述依賴可信度計算推斷可信度，在所述推斷可信度大于預設閾值時填充所述可推斷數據，從所述數據庫的外部資源中檢索所述待檢索數據并根據所述依賴可信度計算檢索可信度，在所述檢索可信度大于所述預設閾值時填充所述待檢索數據。

【技術特征摘要】

【專利技術屬性】
技術研發人員：李直旭，周劍，楊強，李洋，
申請(專利權)人：蘇州大學張家港工業技術研究院，
類型：發明
國別省市：江蘇;32

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術