【技術(shù)實(shí)現(xiàn)步驟摘要】
【國(guó)外來(lái)華專利技術(shù)】
本專利技術(shù)涉及處理相關(guān)數(shù)據(jù)集。
技術(shù)介紹
數(shù)據(jù)集是例如在任何數(shù)量的物理存儲(chǔ)介質(zhì)上容納的數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)(例如,在一個(gè)或多個(gè)服務(wù)器上容納的數(shù)據(jù)庫(kù)中存儲(chǔ))的數(shù)據(jù)的集合。可以例如通過(guò)諸如文件或其他形式的對(duì)象(例如,在面向?qū)ο蟮臄?shù)據(jù)庫(kù)中存儲(chǔ)的對(duì)象)的實(shí)體來(lái)描述數(shù)據(jù)集的諸如其結(jié)構(gòu)和存儲(chǔ)位置的屬性。在一些情況下,用于描述特定數(shù)據(jù)集的實(shí)體(例如,文件)也存儲(chǔ)在那個(gè)數(shù)據(jù)集中的數(shù)據(jù)。在一些情況下,用于描述特定數(shù)據(jù)集的實(shí)體(例如,指向數(shù)據(jù)庫(kù)表格的對(duì)象)不必然存儲(chǔ)在那個(gè)數(shù)據(jù)集中的所有數(shù)據(jù),而是可以用于定位在數(shù)據(jù)存儲(chǔ)系統(tǒng)中的一個(gè)或多個(gè)位置中存儲(chǔ)的數(shù)據(jù)。可以使用多種結(jié)構(gòu)的任何一種來(lái)組織在數(shù)據(jù)集中的數(shù)據(jù),該多種結(jié)構(gòu)包括向單獨(dú)的記錄提供用于相應(yīng)字段的值(也稱為“屬性”或“列”)的記錄結(jié)構(gòu),該值可能包括空值(例如,指示字段是空的)。例如,該記錄可以對(duì)應(yīng)于在數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)庫(kù)表格中的行或在電子表格或其他平面文件中的行。為了訪問(wèn)以給定格式存儲(chǔ)的記錄,數(shù)據(jù)處理系統(tǒng)通常以某種初始格式信息饋送,該某種初始格式信息描述特性,諸如字段的名稱、在記錄中的字段的順序、表示字段值的比特的數(shù)量、字段之后的類型(例如,字符串、帶符號(hào)/不帶符號(hào)的整數(shù))。在一些情況下,可能初始不知道或可以在數(shù)據(jù)的分析后確定數(shù)據(jù)集的記錄格式或其他結(jié)構(gòu)信息。數(shù)據(jù)集可以以多種方式的任何一種彼此相關(guān)。例如,與在數(shù)據(jù)庫(kù)中的第一表格對(duì)應(yīng)的第一數(shù)據(jù)集可以包括與在數(shù)據(jù)庫(kù)中的第二表格的字段具有主密鑰(key)/外密鑰關(guān)系的字段。在第一表格中的主密鑰字段可以包括唯一地識(shí)別在第一表格中的行的值(例如,用于唯一地識(shí)別與不同的客戶對(duì)應(yīng)的行的客戶ID值) ...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
【國(guó)外來(lái)華專利技術(shù)】2010.06.22 US 61/357,3761.一種用于處理相關(guān)數(shù)據(jù)集的方法,所述方法包括: 通過(guò)輸入裝置或端口接收來(lái)自多個(gè)數(shù)據(jù)集的給定數(shù)據(jù)集的記錄,所述給定數(shù)據(jù)集的記錄具有用于一個(gè)或多個(gè)相應(yīng)字段的一個(gè)或多個(gè)值;并且, 在數(shù)據(jù)處理系統(tǒng)中處理來(lái)自所述多個(gè)數(shù)據(jù)集的每一個(gè)的記錄,所述處理包括: 分析在數(shù)據(jù)存儲(chǔ)系統(tǒng)中存儲(chǔ)的至少一個(gè)約束規(guī)范,以確定對(duì)于所述多個(gè)數(shù)據(jù)集的處理順序,所述約束規(guī)范指定用于保留在包括所述多個(gè)數(shù)據(jù)集的一組相關(guān)數(shù)據(jù)集之間的引用完整性或統(tǒng)計(jì)一致性的一個(gè)或多個(gè)約束; 以所述確定的處理順序向來(lái)自所述多個(gè)數(shù)據(jù)集的每一個(gè)的記錄應(yīng)用一個(gè)或多個(gè)變換,其中,在向來(lái)自所述多個(gè)數(shù)據(jù)集的第二數(shù)據(jù)集的記錄應(yīng)用所述變換之前,向來(lái)自所述多個(gè)數(shù)據(jù)集的第一數(shù)據(jù)集的記錄應(yīng)用所述變換,并且至少部分地基于向來(lái)自所述第一數(shù)據(jù)集的所述記錄應(yīng)用所述變換的結(jié)果和由所述約束規(guī)范指定的在所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集之間的至少一個(gè)約束來(lái)應(yīng)用向來(lái)自所述第二數(shù)據(jù)集的所述記錄應(yīng)用的所述變換;以及, 存儲(chǔ)或輸出對(duì)于來(lái)自所述多個(gè)數(shù)據(jù)集的每一個(gè)的所述記錄的所述變換的結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其中,用于保留由所述約束規(guī)范指定的引用完整性的至少一個(gè)約束基于用于所述第二數(shù)據(jù)集的字段的值對(duì)于用于所述第一數(shù)據(jù)集的字段的值的依賴。3.根據(jù)權(quán)利要求2所述的方法,其中,所述第一數(shù)據(jù)集的所述字段是主密鑰,并且所述第二數(shù)據(jù)集的所述字段是引用所述主密鑰的外密鑰。4.根據(jù)權(quán)利要求3所述的方法,其中,所述約束規(guī)范包括在所述第二數(shù)據(jù)集的所述字段和所述第一數(shù)據(jù)集的所述字段之間的外密鑰與主密鑰關(guān)系的表示。5.根據(jù)權(quán)利要求2所述的方法,其中,確定用于所述多個(gè)數(shù)據(jù)集的所述處理順序包括:確定基于用于所述第二數(shù)據(jù)集的字段的值對(duì)于用于所述第一數(shù)據(jù)集的字段的值的依賴、按照處理順序,在所述第二數(shù)據(jù)集之前出現(xiàn)所述第一數(shù)據(jù)集。6.根據(jù)權(quán)利要求1所述的方法,其中,在所述變換被應(yīng)用到來(lái)自所述第二數(shù)據(jù)集的記錄之前,并且在所述變換被應(yīng)用到來(lái)自所述第一數(shù)據(jù)集的記錄之后,向來(lái)自多個(gè)數(shù)據(jù)集的第三數(shù)據(jù)集的記錄應(yīng)用所述變換。7.根據(jù)權(quán)利要求1所述的方法,其中,用于保留由所述約束規(guī)范指定的統(tǒng)計(jì)一致性的至少一個(gè)約束基于在所述第二數(shù)據(jù)集的字段和所述第一數(shù)據(jù)集的字段之間的等同。8.根據(jù)權(quán)利要求7所述的方法,其中,所述第一數(shù)據(jù)集的所述字段和所述第二數(shù)據(jù)集的所述字段是在結(jié)合操作中的密鑰。9.根據(jù)權(quán)利要求8所述的方法,其中,所述約束規(guī)范包括所述結(jié)合操作的表示。10.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:剖析在所述一組相關(guān)數(shù)據(jù)集中的所述數(shù)據(jù)集以確定與多個(gè)字段相關(guān)聯(lián)的統(tǒng)計(jì),所述多個(gè)字段包括所述第一數(shù)據(jù)集的至少一個(gè)字段和由所述約束規(guī)范指示為相等于所述第一數(shù)據(jù)集的所述字段的所述第二數(shù)據(jù)集的至少一個(gè)字段。11.根據(jù)權(quán)利要求10所述的方法,其中,根據(jù)所述確定的統(tǒng)計(jì)和向來(lái)自所述第一數(shù)據(jù)集的所述記錄應(yīng)用所述變換的所述結(jié)果,至少部分地基于保留在所述第一數(shù)據(jù)集的所述字段中的值的分布和在所述第二數(shù)據(jù)集的所述字段中的值的分布之間的統(tǒng)計(jì)一致性來(lái)應(yīng)用向來(lái)自所述第二數(shù)據(jù)集的所述記錄應(yīng)用的所述一個(gè)或多個(gè)變換。12.根據(jù)權(quán)利要求1所述的方法,其中,通過(guò)至少一個(gè)數(shù)據(jù)流圖形來(lái)應(yīng)用所述一個(gè)或多個(gè)變換,所述至少一個(gè)數(shù)據(jù)流圖形包括節(jié)點(diǎn),所述節(jié)點(diǎn)表示通過(guò)用于表示在數(shù)據(jù)處理部件之間的記錄的流的鏈路連接的數(shù)據(jù)處理部件,被應(yīng)用所述變換的每一個(gè)數(shù)據(jù)集向所述數(shù)據(jù)流圖形提供記錄的輸入流。13.根據(jù)權(quán)利要求12所述的方法,其中,使用所述多個(gè)數(shù)據(jù)集的相應(yīng)的一個(gè)來(lái)以多個(gè)迭代連續(xù)地執(zhí)行所述數(shù)據(jù)流圖形,以便以用于所述多個(gè)數(shù)據(jù)集的所述確定的處理順序來(lái)提供記錄的輸入流。14.根據(jù)權(quán)利要求1所述的方法,其中,被應(yīng)用到給定數(shù)據(jù)集的記錄的所述一個(gè)或多個(gè)變換包括子集變換,所述子集變換基于在所述給定數(shù)據(jù)集的至少一個(gè)字段中的值來(lái)減少在所述給定數(shù)據(jù)集中的記錄的數(shù)量。15.根據(jù)權(quán)利要求1所述的方法,其中,向給定數(shù)據(jù)集的記錄應(yīng)用的所述一個(gè)或多個(gè)變換包括修改變換,所述修改變換修改在所述數(shù)據(jù)集的至少一個(gè)字段中的值。16.根據(jù)權(quán)利要求1所述的方法,其中,向給定數(shù)據(jù)集的記錄應(yīng)用的所述一個(gè)或多個(gè)變換包括擴(kuò)展信息,所述擴(kuò)展信息基于在所述給定數(shù)據(jù)集的至少一個(gè)字段中的值的復(fù)制來(lái)增大在所述給定數(shù)據(jù)集中的記錄的數(shù)量。...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:AF羅伯茨,
申請(qǐng)(專利權(quán))人:起元技術(shù)有限責(zé)任公司,
類型:
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。