• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數據列映射方法及系統技術方案

    技術編號:15704891 閱讀:96 留言:0更新日期:2017-06-26 10:16
    本發明專利技術公開了一種數據列映射方法及系統,其中,方法包括:獲取源數據庫與目標數據庫表和列的特征信息;將獲取的特征信息文本化;將文本化的特征信息轉化為矢量;抽取部分源數據庫列與目標數據庫列的組合形成樣本集合;對樣本集合中的源數據庫列與目標數據庫列的特征信息矢量進行相似度計算并進行匹配判斷;基于上述相似度計算結果及匹配判斷結果,生成貝葉斯分類器;將上述貝葉斯分類器應用于所有的源數據庫列與目標數據庫列組合。本發明專利技術可以實現自動化的數據庫列映射,提高工作效率。

    【技術實現步驟摘要】
    一種數據列映射方法及系統
    本專利技術涉及數據映射
    ,更具體地,涉及一種數據列映射方法及系統。
    技術介紹
    總所周知,數據庫尤其是關系型數據庫中數據是以表(Table)的形式組織,而每個數據庫表又是按行(Rows)和列(Columns)組織的。其中列也被稱作字段,每個字段都有一個具體的類型。數據庫表中的每一行都代表一條具體的數據,每一條數據正是由上述字段組成。在數據處理任務中,往往會涉及到源數據庫到目標數據庫的映射和整合,而由于源數據庫和目標數據庫往往具備不同的數據庫模式(Scheme),就是說兩個數據庫的數據庫表及列結構往往是不一樣的,因此就需要將源數據庫的表和列結構映射到目標數據庫的表和列結構上。而由于數據庫表的結構由列組成,因此我們可以將這個任務看作是從源數據庫列結構到目標數據庫列結構的映射。傳統上,這個任務基本上是由數據專家人工完成,耗時長,費用高。
    技術實現思路
    針對現有技術中存在的問題,本專利技術的目的在于設計一種數據列映射方法及系統,解決源數據庫列結構到目標數據庫列結構的映射需耗費時間長,成本高的問題。為達到上述技術目的,本專利技術的技術方案提供一種數據列映射方法,其中,包括:S1、獲取源數據庫與目標數據庫表和列的特征信息;S2、將獲取的特征信息文本化;S3、將文本化的特征信息轉化為矢量;S4、抽取部分源數據庫列與目標數據庫列的組合形成樣本集合;S5、對樣本集合中的源數據庫列與目標數據庫列的特征信息矢量進行相似度計算并進行匹配判斷;S6、基于上述相似度計算結果及匹配判斷結果,生成貝葉斯分類器;S7、將上述貝葉斯分類器應用于所有的源數據庫列與目標數據庫列組合。本專利技術還提供一種數據列映射系統,其中,包括:獲取特征信息模塊:用于獲取源數據庫與目標數據庫表和列的特征信息;文本化模塊:用于將獲取的特征信息文本化;矢量化模塊:用于將文本化的特征信息轉化為矢量;樣本集合模塊:用于抽取部分源數據庫列與目標數據庫列的組合形成樣本集合;相似度計算模塊:用于對樣本集合中的源數據庫列與目標數據庫列的特征信息矢量進行相似度計算并進行匹配判斷;貝葉斯分類器模塊:用于將上述相似度計算結果及匹配判斷結果,生成貝葉斯分類器;應用模塊:用于將貝葉斯分類器應用于所有的源數據庫列與目標數據庫列組合。與現有技術相比,本專利技術具有以下有益效果:本專利技術可以實現自動化的數據庫列映射,提高工作效率。附圖說明圖1是本專利技術提供的一種數據列映射方法流程圖。圖2是本專利技術提供的一種數據列映射系統結構框圖。附圖標記說明:數據列映射系統1,獲取特征信息模塊11,文本化模塊12,矢量化模塊13,樣本集合模塊14,相似度計算模塊15,貝葉斯分類器模塊16,應用模塊17,詞集合模塊131,ngram元祖文本矢量模塊132,權重矢量模塊133。具體實施方式下面結合附圖對本專利技術進行詳細描述,本部分的描述僅是示范性和解釋性,不應對本專利技術的保護范圍有任何的限制作用。本專利技術提供的一種數據列映射方法,其中,包括:S1、獲取源數據庫與目標數據庫表和列的特征信息;S2、將獲取的特征信息文本化,具體地是將得到的數據庫表/列特征信息轉化為文本字符串;S3、將文本化的特征信息轉化為矢量;S4、抽取部分源數據庫列與目標數據庫列的組合形成樣本集合;S5、對樣本集合中的源數據庫列與目標數據庫列的特征信息矢量進行相似度計算并進行匹配判斷;S6、基于上述相似度計算結果及匹配判斷結果,生成貝葉斯分類器;S7、將上述貝葉斯分類器應用于所有的源數據庫列與目標數據庫列組合。本專利技術所述的數據列映射方法,步驟S1中:從源數據庫和目標數據庫中的數據列可以獲得如下特征信息:每個數據庫列所屬表中文表名、每個數據庫列所屬表英文表名、每個數據庫列中文列名、每個數據庫列英文表名、每個數據庫列的類型、每個數據庫列中數據的抽樣;若上述描述信息為多種語言版本,則每種語言的版本可作為一種單獨的特征信息;源數據庫與目標數據庫表和列的特征信息還可以是組合特征信息,可以由簡單特征信息組合而成,比如數據庫表名+數據庫列名可以形成一個新的特征信息。例如:源數據庫中人員信息表的第一個數據列可以獲得以下特征信息:中文表名-人員信息表,英文表名-PeopleInfo,中文列名-姓名,英文列名-Name,類型-Text,數據抽樣-“張三李四王五”;對于每個數據庫列,均能獲得以上類似的特征信息。本專利技術所述的數據列映射方法,步驟S3中包括:S31、將文本化的特征信息轉換為由一系列詞組成的詞集合,對于中文信息,還可能需要應用分詞算法。S32、使用Ngram算法將上述詞集合轉化為一個由ngram元祖組成的文本矢量,Ngram算法是一種常見的將文本字符串矢量化的算法,其中N為正整數。例如:以3gram算法來舉例,假設有如下一個字符串:“Thequickbrownfoxjumpsoverthelazydog”,3gram算法的運作方式如下:A,首先在字符串中每個詞的前面添加2個空格,然后在每個詞的后面添加一個空格;B,從第一個字符開始,取連續三個字符作為矢量分量放入矢量;C,以此循環直到字符串結尾。上述字符串就被轉化為以下文本矢量:(t,th,the,he,e,q,qu,qui,uic,ick,ck,k,b,br,bro,row,own,f,fo,fox,ox,x,j,ju,jum,ump,mps,ps,s,o,ov,ove,ver,er,r,t,th,the,l,la,laz,azy,zy,y,d,do,dog),其中每個矢量分量用逗號分隔。S33、使用TF-IDF算法計算上述文本矢量中每個元素的權重,并得到一個權重矢量,其計算方法如下:A,一個文本矢量分量在一個句子中的出現頻率可以記為:(ft,d),t代表某個分量,而d代表某個文本矢量;使用對數歸一化的tf可以計算為:tf(t,d)=1+log(ft,d)B,但是單獨使用tf的問題是某些常用詞如the,this等的頻繁出現會扭曲相似度的計算,換言之兩個句子如果都有一個非常用詞比都有一個常用詞的相似度應該要更高。我們用idf參數來表示一個文本矢量分量的非常用特性:其中N是指用于計算的文本矢量的總數,而|{d∈D,t∈d}|表示有多少文本矢量包含有該分量t。C,最終的矢量權重如下計算:weight=tf(t,d)×idf(t,D)本專利技術所述的數據列映射方法,步驟S4中:樣本集合中包含的每個成員都是由一個源數據庫列和一個目標數據庫列形成的組合,如果用表名+列名來標識一個列的話,那么該樣本集合的一個例子就是:(源數據庫人員信息表-姓名列,目標數據庫雇員信息表-員工姓名列)、(源數據庫人員信息表-姓名列,目標數據庫雇員信息表-工號列)。本專利技術所述的數據列映射方法,步驟S5中:使用余弦相似度算法計算源數據庫列與目標數據庫列對應特征信息權重矢量之間的相似度,并對源數據庫列和目標數據庫列進行匹配判斷。由于提取多種特征信息,因此每個數據列有多個特征信息矢量,因此可以計算出多個相似度,相似度計算采用的是余弦相似度算法來計算兩個矢量的相似度:由人工進行樣本數據庫中源數據庫列和目標數據庫列的匹配判斷,其結果例子如下:(源數據庫人員信息表-姓名列,目標數據庫雇員信息表-員工姓名列,匹配結果:是)、(源數據庫人員信息表-姓本文檔來自技高網...
    一種數據列映射方法及系統

    【技術保護點】
    一種數據列映射方法,其特征在于,包括如下步驟:S1、獲取源數據庫與目標數據庫表和列的特征信息;S2、將獲取的特征信息文本化;S3、將文本化的特征信息轉化為矢量;S4、抽取部分源數據庫列與目標數據庫列的組合形成樣本集合;S5、對樣本集合中的源數據庫列與目標數據庫列的特征信息矢量進行相似度計算并進行匹配判斷;S6、基于上述相似度計算結果及匹配判斷結果,生成貝葉斯分類器;S7、將上述貝葉斯分類器應用于所有的源數據庫列與目標數據庫列組合。

    【技術特征摘要】
    1.一種數據列映射方法,其特征在于,包括如下步驟:S1、獲取源數據庫與目標數據庫表和列的特征信息;S2、將獲取的特征信息文本化;S3、將文本化的特征信息轉化為矢量;S4、抽取部分源數據庫列與目標數據庫列的組合形成樣本集合;S5、對樣本集合中的源數據庫列與目標數據庫列的特征信息矢量進行相似度計算并進行匹配判斷;S6、基于上述相似度計算結果及匹配判斷結果,生成貝葉斯分類器;S7、將上述貝葉斯分類器應用于所有的源數據庫列與目標數據庫列組合。2.根據權利要求1所述的數據列映射方法,其特征在于,步驟S1中:獲取的特征信息包括但不限于:數據庫表名、數據庫表描述信息、數據庫列名、數據庫列描述信息、數據庫列類型、數據庫列的數據抽樣。3.根據權利要求2所述的數據列映射方法,其特征在于,步驟S3中包括如下步驟:S31、將文本化的特征信息轉換為由一系列詞組成的詞集合;S32、使用Ngram算法將上述詞集合轉化為一個由ngram元祖組成的文本矢量;S33、使用TF-IDF算法計算上述文本矢量中每個元素的權重,并得到一個權重矢量。4.根據權利要求3所述的數據列映射方法,其特征在于,步驟S4中:所述樣本集合中包含的每個成員都是由一個源數據庫列和一個目標數據庫列形成的組合,其每個成員都包含所述步驟S33中計算的權重矢量。5.根據權利要求4所述的數據列映射方法,其特征在于,步驟S5中:使用余弦相似度算法計算源數據庫列與目標數據庫列對應特征信息權重矢量之間的相似度,并對源數據庫列和目標數據庫列進行匹配判斷。6.根據權利要求5...

    【專利技術屬性】
    技術研發人員:陳磊
    申請(專利權)人:武漢翼海云峰科技有限公司
    類型:發明
    國別省市:湖北,42

    相關技術
      暫無相關專利
    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品亚洲av无码一区二区柚蜜| 日韩人妻无码中文字幕视频| 亚洲国产成人精品无码区在线秒播 | 精品人妻无码一区二区色欲产成人| 欧洲无码一区二区三区在线观看| 无码国产精品一区二区免费式影视| 亚洲熟妇无码久久精品| 亚洲AV日韩AV永久无码色欲 | 成人无码区免费视频观看| 亚洲一级Av无码毛片久久精品| 无码137片内射在线影院| 人妻少妇乱子伦无码专区| 国产成人AV片无码免费| 国产精品亚洲а∨无码播放麻豆| 亚洲VA中文字幕无码毛片 | 老司机无码精品A| 无码一区二区三区| 一本大道无码人妻精品专区| 久久久久亚洲AV成人无码网站| 无码人妻丝袜在线视频| 波多野结衣VA无码中文字幕电影| 在线A级毛片无码免费真人| 亚洲aⅴ无码专区在线观看春色 | 男男AV纯肉无码免费播放无码| 亚洲AⅤ无码一区二区三区在线| 亚洲va中文字幕无码| 无码人妻一区二区三区免费手机| 无码高潮爽到爆的喷水视频app| 无码视频一区二区三区| 中文字幕无码一区二区免费| av大片在线无码免费| 中文字幕久无码免费久久 | AA区一区二区三无码精片| 国产精品午夜无码体验区| 亚洲av无码国产精品色午夜字幕| 久久AV无码精品人妻出轨| 亚洲欧洲无码AV电影在线观看 | 无码视频一区二区三区| 亚洲av无码乱码国产精品| 无码人妻精品一区二区蜜桃| 亚洲va无码va在线va天堂|