【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機(jī)領(lǐng)域,特別是涉及一種用于連續(xù)化矩陣數(shù)據(jù)元素標(biāo)識的方法和 系統(tǒng)。
技術(shù)介紹
在大規(guī)模并行計算中,很重要一類計算是矩陣或向量的計算。通常描述矩陣采用 (Rowkey, colkey, value)的三元組(其中Rowkey, colkey分別為行標(biāo)、列標(biāo),va Iue為實 際存儲的數(shù)據(jù)內(nèi)容),這樣可以采用稀疏的存儲方式,從而減少存儲空間。用戶再將矩陣按 照行(Rowkey)或者列(colkey)進(jìn)行劃分,將數(shù)據(jù)散布到多個計算結(jié)點(diǎn)(也即計算服務(wù)器) 上,從而達(dá)到并行計算的目的。通常為了唯一標(biāo)識矩陣中每個數(shù)據(jù)元素,輸入的Rowkey和 colkey采用位數(shù)較多(64位,128位)的簽名。而在實際的計算過程中,Rowkey和colkey 僅作為一個下標(biāo),并不需要很多的位數(shù)。因此為了減少節(jié)點(diǎn)內(nèi)存存儲空間,并且方便計算時 順序訪問,常常要對key和colkey進(jìn)行連續(xù)的id化,即將Rowkey和colkey都轉(zhuǎn)換為連續(xù) 的O-N的整數(shù)列?,F(xiàn)有技術(shù)中,存在一種對矩陣數(shù)據(jù)的的存儲標(biāo)識進(jìn)行id化的方法是串行id化方 法,即采用一個計算節(jié)點(diǎn),逐個獲取矩陣中的數(shù)據(jù)元素將其行標(biāo)和列標(biāo)進(jìn)行id化,但是該 種方法處理效率低,時間長。
技術(shù)實現(xiàn)思路
鑒于上述問題,提出了本專利技術(shù)以便提供一種克服上述問題或者至少部分地解決上 述問題的一種用于連續(xù)化矩陣數(shù)據(jù)元素標(biāo)識的裝置和相應(yīng)的一種用于連續(xù)化矩陣數(shù)據(jù)元 素標(biāo)識的方法。依據(jù)本專利技術(shù)的一個方面,提供了一種用于連續(xù)化矩陣數(shù)據(jù)元素標(biāo)識的方法,包 括針對N個計算節(jié)點(diǎn),每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中被分配給該計算節(jié) 點(diǎn)的矩陣分 ...
【技術(shù)保護(hù)點(diǎn)】
一種用于連續(xù)化矩陣數(shù)據(jù)元素標(biāo)識的方法,其特征在于,包括:針對N個計算節(jié)點(diǎn),每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中被分配給該計算節(jié)點(diǎn)的矩陣分塊的數(shù)據(jù)元素;每個參與計算的計算節(jié)點(diǎn)根據(jù)預(yù)置的數(shù)據(jù)標(biāo)識散步規(guī)則,將所讀取的數(shù)據(jù)元素中的數(shù)據(jù)標(biāo)識保留在本地或者發(fā)送到相應(yīng)的計算節(jié)點(diǎn),并接收剩余N?1個計算節(jié)點(diǎn)發(fā)送的數(shù)據(jù)標(biāo)識,獲得由所述計算節(jié)點(diǎn)進(jìn)行處理的最終數(shù)據(jù)標(biāo)識;每個參與計算的計算節(jié)點(diǎn)根據(jù)所述最終數(shù)據(jù)標(biāo)識進(jìn)行連續(xù)化,獲得與每個數(shù)據(jù)標(biāo)識相應(yīng)的第一標(biāo)識;每個參與計算的計算節(jié)點(diǎn)將第一標(biāo)識與原數(shù)據(jù)標(biāo)識的對應(yīng)關(guān)系通知給其他計算節(jié)點(diǎn);其中,所述每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中被分配給該計算節(jié)點(diǎn)的矩陣分塊的數(shù)據(jù)元素包括:每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中按行分塊的數(shù)據(jù)元素,或者按列分塊的數(shù)據(jù)元素。
【技術(shù)特征摘要】
1.一種用于連續(xù)化矩陣數(shù)據(jù)元素標(biāo)識的方法,其特征在于,包括 針對N個計算節(jié)點(diǎn),每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中被分配給該計算節(jié)點(diǎn)的矩陣分塊的數(shù)據(jù)元素; 每個參與計算的計算節(jié)點(diǎn)根據(jù)預(yù)置的數(shù)據(jù)標(biāo)識散步規(guī)則,將所讀取的數(shù)據(jù)元素中的數(shù)據(jù)標(biāo)識保留在本地或者發(fā)送到相應(yīng)的計算節(jié)點(diǎn),并接收剩余N-1個計算節(jié)點(diǎn)發(fā)送的數(shù)據(jù)標(biāo)識,獲得由所述計算節(jié)點(diǎn)進(jìn)行處理的最終數(shù)據(jù)標(biāo)識; 每個參與計算的計算節(jié)點(diǎn)根據(jù)所述最終數(shù)據(jù)標(biāo)識進(jìn)行連續(xù)化,獲得與每個數(shù)據(jù)標(biāo)識相應(yīng)的第一標(biāo)識; 每個參與計算的計算節(jié)點(diǎn)將第一標(biāo)識與原數(shù)據(jù)標(biāo)識的對應(yīng)關(guān)系通知給其他計算節(jié)占. 其中,所述每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中被分配給該計算節(jié)點(diǎn)的矩陣分塊的數(shù)據(jù)元素包括 每個參與計算的計算節(jié)點(diǎn)讀取矩陣數(shù)據(jù)中按行分塊的數(shù)據(jù)元素,或者按列分塊的數(shù)據(jù)元素。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述每個參與計算的計算節(jié)點(diǎn)根據(jù)預(yù)置的數(shù)據(jù)標(biāo)識散步規(guī)則,將所讀取的數(shù)據(jù)元素中的數(shù)據(jù)標(biāo)識保留在本地或者發(fā)送到相應(yīng)的計算節(jié)點(diǎn)包括 每個參與計算的計算節(jié)點(diǎn)根據(jù)閾值的列標(biāo)識散步規(guī)則,將所讀取的數(shù)據(jù)元素中的列標(biāo)識保留在本地或者發(fā)送到相應(yīng)的計算節(jié)點(diǎn);并接收其他N-1個計算節(jié)點(diǎn)發(fā)送的列標(biāo)識。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述每個參與計算的計算節(jié)點(diǎn)根據(jù)所述最終數(shù)據(jù)標(biāo)識進(jìn)行連續(xù)化,獲得與每個數(shù)據(jù)標(biāo)識相應(yīng)的第一標(biāo)識包括 每個參與計算的計算節(jié)點(diǎn)根據(jù)本地的行標(biāo)識生成行標(biāo)識向量,并對行標(biāo)識向量進(jìn)行連續(xù)化,獲得與每個行標(biāo)識相應(yīng)的第一行標(biāo)識; 每個參與計算的計算節(jié)點(diǎn)對本地的列標(biāo)識進(jìn)行去重并生成列標(biāo)識向量,并對列標(biāo)識向量進(jìn)行連續(xù)化,獲得與每個列標(biāo)識相應(yīng)的第一列標(biāo)識。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述每個參與計算的計算節(jié)點(diǎn)將第一標(biāo)識與原數(shù)據(jù)標(biāo)識的對應(yīng)關(guān)系通知給其他計算節(jié)點(diǎn)包括 每個參與計算的計算節(jié)點(diǎn)根據(jù)第一列標(biāo)識與原列標(biāo)識的對應(yīng)關(guān)系,將第一列標(biāo)識通知給其他計算節(jié)點(diǎn)。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述每個參與計算的計算節(jié)點(diǎn)根據(jù)預(yù)置的數(shù)據(jù)標(biāo)識散步規(guī)則,將所讀取的數(shù)據(jù)元素中的數(shù)據(jù)標(biāo)識保留在本地或者發(fā)送到相應(yīng)的計算節(jié)點(diǎn)包括 每個參與計算的計算節(jié)點(diǎn)根據(jù)閾值的行標(biāo)識散步規(guī)則,將所讀取的數(shù)據(jù)元素中的行標(biāo)識保留在本地或者發(fā)送到相應(yīng)的計算節(jié)點(diǎn);并接收其他計算節(jié)點(diǎn)發(fā)送的行標(biāo)識。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述每個參與計算的計算節(jié)點(diǎn)根據(jù)所述最終數(shù)據(jù)標(biāo)識進(jìn)行連續(xù)化,獲得與每個數(shù)據(jù)標(biāo)識相應(yīng)的第一標(biāo)識包括 每個參與計算的計算節(jié)點(diǎn)根據(jù)本地的列標(biāo)識生成行標(biāo)識向量,并對列標(biāo)識向量進(jìn)行連續(xù)化,獲得與每個列標(biāo)識相應(yīng)的第一列標(biāo)識; 每個參與計算的計算節(jié)點(diǎn)對本地的行標(biāo)識進(jìn)行去重并生成行標(biāo)識向量,并對行標(biāo)識向量進(jìn)行連續(xù)化,獲得與每個行標(biāo)識相應(yīng)的第一行標(biāo)識。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述每個參與計算的計算節(jié)點(diǎn)將第一標(biāo)識與原數(shù)據(jù)標(biāo)識的對應(yīng)關(guān)系通知給其他計算節(jié)點(diǎn)包括 每個參與計算的計算節(jié)點(diǎn)根據(jù)第一行標(biāo)識與原行標(biāo)識的對應(yīng)關(guān)系,將第一行標(biāo)識通知給其他計算節(jié)點(diǎn)。8.根據(jù)權(quán)利要求3或6所述的方法,其特征在于,所述對向量進(jìn)行連續(xù)化包括 每個參與計算的計算節(jié)點(diǎn)i統(tǒng)計待計算的標(biāo)識總數(shù)Ni,并將所述總數(shù)通知給其他計算節(jié)點(diǎn); 每個參與計算的計算節(jié)點(diǎn)根據(jù)各計算節(jié)點(diǎn)待計算的標(biāo)識總數(shù)Ni,計算本節(jié)點(diǎn)起始的第一標(biāo)識; 每個參與計算的計算節(jié)點(diǎn)根據(jù)本節(jié)點(diǎn)的起始的第一標(biāo)識,對本節(jié)點(diǎn)的標(biāo)識向量進(jìn)行連續(xù)化,獲得相...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:齊路,何銳邦,唐會軍,
申請(專利權(quán))人:北京奇虎科技有限公司,奇智軟件北京有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。