【技術(shù)實(shí)現(xiàn)步驟摘要】
用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的域
本專利技術(shù)一般涉及數(shù)據(jù)質(zhì)量,尤其涉及基于知識(shí)的數(shù)據(jù)質(zhì)量方案。
技術(shù)介紹
隨著計(jì)算技術(shù)的提高以及計(jì)算設(shè)備變得更普遍,出于個(gè)人和公務(wù)原因使用計(jì)算機(jī)對(duì)于日常活動(dòng)已經(jīng)變得常見(jiàn)。為了跟上需求,數(shù)據(jù)集合呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)集合以及數(shù)據(jù)的后續(xù)處理的目的在于理解所收集數(shù)據(jù)的意義,并出于有用的目的匯編所搜集的數(shù)據(jù)。與數(shù)據(jù)的累積以及數(shù)據(jù)的任何相應(yīng)使用相關(guān)聯(lián)的問(wèn)題在于數(shù)據(jù)內(nèi)包含的錯(cuò)誤(例如低質(zhì)量數(shù)據(jù))。錯(cuò)誤的示例可包括不正確的數(shù)據(jù)、缺失的數(shù)據(jù)、拼寫(xiě)錯(cuò)誤、誤置數(shù)據(jù)、重復(fù)數(shù)據(jù)、以及其它問(wèn)題。依賴含錯(cuò)誤數(shù)據(jù)的人和公司可基于該數(shù)據(jù)作出決定、分析、和/或其它動(dòng)作,并且如果該數(shù)據(jù)有缺陷,則所得到的決定、分析等等也會(huì)是有缺陷的。如果事后發(fā)現(xiàn)錯(cuò)誤,則會(huì)損壞數(shù)據(jù)的置信度和相關(guān)信任。在一些情形中,如果數(shù)據(jù)不滿足足夠的質(zhì)量水平,則該數(shù)據(jù)可能無(wú)法加以信賴。一些系統(tǒng)利用一般方法來(lái)改進(jìn)數(shù)據(jù)質(zhì)量。該一般方法基于“一視同仁”(one-size fits all)的思想。例如,該一般方法對(duì)數(shù)據(jù)應(yīng)用一般算法,以嘗試凈化或改進(jìn)數(shù)據(jù)的質(zhì)量。 由于一般算法是不管數(shù)據(jù)內(nèi)容為何就應(yīng)用的,因此一般方法僅能提供有限的解決方案。在一些情形中,一般方法可能無(wú)法解決與數(shù)據(jù)相關(guān)聯(lián)的問(wèn)題。由此,已用一般算法凈化的數(shù)據(jù)的質(zhì)量仍然會(huì)較低,因?yàn)樵瓉?lái)的問(wèn)題并沒(méi)有得到解決。當(dāng)今計(jì)算系統(tǒng)和數(shù)據(jù)質(zhì)量方案的上述缺點(diǎn)僅旨在提供常規(guī)系統(tǒng)的一些問(wèn)題的概覽,并且不旨在是窮盡性的。常規(guī)系統(tǒng)的其他問(wèn)題以及此處所描述的各非限制性實(shí)施例的對(duì)應(yīng)益處可以在審閱以下描述后變得更顯而易見(jiàn)。
技術(shù)實(shí)現(xiàn)思路
此處提供了簡(jiǎn)化的
技術(shù)實(shí)現(xiàn)思路
以幫助能夠?qū)σ?span style='display:none'>下更詳細(xì)的描述和附圖中的示例性、 非限制性實(shí)施例的各方面有基本或大體的理解。然而,本
技術(shù)實(shí)現(xiàn)思路
并不旨在是詳盡的或窮盡的。相反,本
技術(shù)實(shí)現(xiàn)思路
的唯一目的在于,以簡(jiǎn)化的形式提出與一些示例性、非限制性實(shí)施例相關(guān)的一些概念,作為以下各實(shí)施例的更詳細(xì)的描述的序言。本文中所揭示的各個(gè)方面涉及提供基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案。該數(shù)據(jù)質(zhì)量解決方案基于關(guān)于數(shù)據(jù)的知識(shí)的采集與數(shù)據(jù)處理的明確分離。還提供一種可傳遞、可移動(dòng)、可插入的知識(shí)容器(例如,知識(shí)庫(kù))。該數(shù)據(jù)質(zhì)量解決方案還提供受引導(dǎo)的知識(shí)采集和向基于云的知識(shí)的無(wú)縫可擴(kuò)展性。另一方面涉及從內(nèi)部信息(例如,來(lái)自客戶機(jī)或來(lái)自數(shù)據(jù)本身)和外部信息(例如, 來(lái)自包含數(shù)據(jù)質(zhì)量解決方案知識(shí)供下載的第三方網(wǎng)站)獲取有關(guān)數(shù)據(jù)的知識(shí)(例如,知識(shí)庫(kù)的創(chuàng)建)。進(jìn)一步針對(duì)此方面地,應(yīng)用知識(shí)庫(kù)來(lái)凈化數(shù)據(jù)、剖析數(shù)據(jù)、或執(zhí)行語(yǔ)義去重復(fù)。又一方面涉及一種包括數(shù)據(jù)質(zhì)量服務(wù)器(及內(nèi)部組件)的體系結(jié)構(gòu),該數(shù)據(jù)質(zhì)量服務(wù)器鏈接客戶機(jī)和包含數(shù)據(jù)質(zhì)量解決方案知識(shí)以供下載的第三方網(wǎng)站。此外,一方面涉及計(jì)算機(jī)輔助的知識(shí)采集和交互式凈化。再一方面涉及創(chuàng)建域、合成域以及交叉域。這些域是可移動(dòng)、可下載的,并且可被共享。這些和其他實(shí)施例在下文中更詳細(xì)地描述。附圖說(shuō)明 構(gòu); 參考附圖進(jìn)一步描述各非限制性實(shí)施例,在附圖中圖I示出根據(jù)一方面的示例性計(jì)算系統(tǒng)的框圖;圖2示出根據(jù)一方面的配置成提供知識(shí)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量解決方案的系統(tǒng)的框圖; 圖3示出根據(jù)一方面的用于數(shù)據(jù)質(zhì)量解決方案的另一系統(tǒng);圖4示出根據(jù)一方面的配置成提供數(shù)據(jù)質(zhì)量解決方案的系統(tǒng);圖5示出根據(jù)一方面的配置成提供數(shù)據(jù)的去重復(fù)的系統(tǒng);圖6示出根據(jù)一方面的構(gòu)建為匹配項(xiàng)目的輸出的示例性匹配結(jié)果域;圖7示出根據(jù)一方面的用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的示例性系統(tǒng)體系結(jié)圖8示出根據(jù)一方面的數(shù)據(jù)質(zhì)量(DQ)服務(wù)器的組件;圖9示出根據(jù)一方面的使用數(shù)據(jù)集成的批量?jī)艋粓D10示出根據(jù)一方面的用于創(chuàng)建知識(shí)庫(kù)并使用知識(shí)庫(kù)來(lái)改進(jìn)數(shù)據(jù)質(zhì)量的方法的非限制性流程圖圖11程圖12圖13 制性流程圖14圖15圖16 的框圖;以及圖I7示出根據(jù)一方面的用于基于知識(shí)的數(shù)據(jù)質(zhì)量解決方案的方法的非限制性流示出了根據(jù)一方面的另一方法的非限制性流程圖;示出根據(jù)一方面的用于執(zhí)行去重復(fù)作為基于知識(shí)的解決方案的方法的非限示出根據(jù)一方面的用于交互式凈化數(shù)據(jù)的方法的非限制性流程圖;示出根據(jù)一方面的用于創(chuàng)建知識(shí)庫(kù)的方法的非限制性流程圖;是表示其中可實(shí)現(xiàn)在本文所述的各個(gè)實(shí)施例的示例性、非限制性聯(lián)網(wǎng)環(huán)境是表示其中可實(shí)現(xiàn)本文所述的各個(gè)實(shí)施例的一個(gè)或多個(gè)方面的示例性、非限制性計(jì)算系統(tǒng)或操作環(huán)境的框圖。具體實(shí)施方式概覽數(shù)據(jù)質(zhì)量缺陷對(duì)商業(yè)戰(zhàn)略措施會(huì)有負(fù)面影響(有時(shí)是顯著的負(fù)面影響)。數(shù)據(jù)質(zhì)量缺陷(例如,低質(zhì)量數(shù)據(jù))的影響包括糾正數(shù)據(jù)(如果發(fā)現(xiàn)了錯(cuò)誤)所花費(fèi)的額外時(shí)間、信用的損失、客戶不滿、遵從性問(wèn)題和收入損失、以及其它影響。由此,各種各樣的機(jī)構(gòu)都尋求改進(jìn)其商業(yè)數(shù)據(jù)的質(zhì)量。針對(duì)數(shù)據(jù)質(zhì)量的一般方法(例如,基于零知識(shí))不足以產(chǎn)生用于當(dāng)今商務(wù)的高質(zhì)量數(shù)據(jù)。此外,針對(duì)數(shù)據(jù)質(zhì)量的基于知識(shí)的方法可呈現(xiàn)諸如知識(shí)采集、使用、移動(dòng)性、可擴(kuò)展性等等的多種挑戰(zhàn)。由此,通過(guò)采集知識(shí)和處理知識(shí)的分離以提高數(shù)據(jù)質(zhì)量來(lái)提供基于知識(shí)的數(shù)據(jù)質(zhì)量方法將是有益的。在一示例中,采集知識(shí)可包括計(jì)算機(jī)輔助的知識(shí)采集。所公開(kāi)各個(gè)方面中的一個(gè)或多個(gè)提供基于豐富知識(shí)庫(kù)的知識(shí)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量解決方案。例如,數(shù)據(jù)質(zhì)量知識(shí)庫(kù)被創(chuàng)建、維護(hù)和再使用以供執(zhí)行各種數(shù)據(jù)質(zhì)量操作,諸如數(shù)據(jù)凈化和匹配。本文中所公開(kāi)的數(shù)據(jù)質(zhì)量解決方案是快速、容易部署的,并且能快速地建立。本文中所呈現(xiàn)的各個(gè)方面涉及用于針對(duì)數(shù)據(jù)質(zhì)量過(guò)程采集和表示有效知識(shí)的數(shù)據(jù)域(例如,類型),包括簡(jiǎn)單域和合成域。其它方面涉及語(yǔ)義去重復(fù)。另一些方面涉及可擴(kuò)展性的樹(shù)形生成應(yīng)用法。還有一些方面涉及第三方集成的商業(yè)模型。一個(gè)方面涉及一種包括知識(shí)管理器組件和數(shù)據(jù)增強(qiáng)組件的系統(tǒng)。知識(shí)管理器組件被配置成搜集與數(shù)據(jù)集相關(guān)的信息。該信息至少部分地從數(shù)據(jù)集的一樣本搜集,并且該信息被保留在知識(shí)庫(kù)中。數(shù)據(jù)增強(qiáng)組件被配置成對(duì)數(shù)據(jù)集執(zhí)行一個(gè)或多個(gè)操作以提高該數(shù)據(jù)集的質(zhì)量。該一個(gè)或多個(gè)操作基于所搜集的信息。在一示例中,知識(shí)管理器組件基于數(shù)據(jù)集的描述、一個(gè)或多個(gè)規(guī)則、推斷、數(shù)據(jù)字段正確值的列表、以及與用戶的交互來(lái)搜集信息。根據(jù)一示例,數(shù)據(jù)增強(qiáng)組件被配置成凈化作為所搜集信息的結(jié)果的數(shù)據(jù)集。在另一示例中,數(shù)據(jù)增強(qiáng)組件被配置成基于所搜集信息對(duì)數(shù)據(jù)集進(jìn)行去重復(fù)。在一實(shí)現(xiàn)中,系統(tǒng)進(jìn)一步包括數(shù)據(jù)分析模塊,該數(shù)據(jù)分析模塊被配置成基于完整性、符合度、一致性、準(zhǔn)確性、及時(shí)性和重復(fù)度的至少之一來(lái)定義數(shù)據(jù)集的質(zhì)量。根據(jù)另一實(shí)現(xiàn),該系統(tǒng)進(jìn)一步包括配置成獲取有關(guān)數(shù)據(jù)集的語(yǔ)義信息的采集模塊。進(jìn)一步地,該系統(tǒng)包括發(fā)現(xiàn)模塊,該發(fā)現(xiàn)模塊被配置成輸出對(duì)有關(guān)語(yǔ)義信息的細(xì)節(jié)的一個(gè)或多個(gè)請(qǐng)求并接收作為回復(fù)的對(duì)該一個(gè)或多個(gè)請(qǐng)求的響應(yīng)。接收到的響應(yīng)被保留在知識(shí)庫(kù)中。在又一示例中,該系統(tǒng)包括被配置成保留與用戶數(shù)據(jù)和第三方數(shù)據(jù)的屬性有關(guān)的歷史信息的歷史模塊。數(shù)據(jù)增強(qiáng)組件被配置成利用歷史信息來(lái)對(duì)數(shù)據(jù)集執(zhí)行一個(gè)或多個(gè)操作。在再一示例中,該系統(tǒng)包括統(tǒng)計(jì)模塊,該統(tǒng)計(jì)模塊被配置成提供與數(shù)據(jù)質(zhì)量、與數(shù)據(jù)相關(guān)聯(lián)的問(wèn)題、以及數(shù)據(jù)質(zhì)量問(wèn)題源的至少之一相關(guān)的統(tǒng)計(jì)信息。數(shù)據(jù)增強(qiáng)組件被配置成利用統(tǒng)計(jì)信息來(lái)對(duì)數(shù)據(jù)集執(zhí)行一個(gè)或多個(gè)操作。在另一示例中,該系統(tǒng)包括凈化模塊,該凈化模塊被配置成基于知識(shí)管理器組件所搜集的信息來(lái)修改、移除、或豐富不正確或不完整的數(shù)據(jù)。數(shù)據(jù)集包括第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,根據(jù)又一示例該系統(tǒng)進(jìn)一本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種用于數(shù)據(jù)質(zhì)量解決方案的系統(tǒng),包括:配置成采集關(guān)于第一數(shù)據(jù)集和第二數(shù)據(jù)集的數(shù)據(jù)信息的訪問(wèn)模塊(340);配置成針對(duì)所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集創(chuàng)建一個(gè)或多個(gè)域的域創(chuàng)建模塊(385);以及配置成集聚所述一個(gè)或多個(gè)域并用集聚后的域填充知識(shí)庫(kù)(330)的編譯模塊(390),其中所述知識(shí)庫(kù)(330)用于處理一個(gè)或多個(gè)數(shù)據(jù)質(zhì)量集。
【技術(shù)特征摘要】
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:J·瑪爾卡,E·齊克利克,E·胡迪斯,M·拉維夫,G·皮萊格,D·法伊比希,
申請(qǐng)(專利權(quán))人:微軟公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。