The present invention provides a system and a distributed data identification method, the method includes: for all the identified data was divided to form a plurality of data blocks, the data blocks to be used including identification data and training for the detection of the identification data; the architecture of MapReduce, each Map Function computing unit in parallel the way to obtain the data block is different; the Map Function computing unit respectively using the data blocks access to the data to be identified for training the neural network model was trained in training the local preset; after the end of the process, the Map Function computing unit were used by the the neural network model training on access to data blocks for identifying data detection identification to get the recognition result; the architecture of MapReduce Reduce The identification results of the various Map Function get Function unit calculation unit, and all the recognition results were selected to obtain a recognition result.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種分布式數(shù)據(jù)識(shí)別方法及系統(tǒng)
本專利技術(shù)涉及數(shù)據(jù)識(shí)別領(lǐng)域,具體涉及一種分布式數(shù)據(jù)識(shí)別方法及系統(tǒng)。
技術(shù)介紹
在現(xiàn)代數(shù)據(jù)識(shí)別應(yīng)用中,例如圖像識(shí)別、手寫(xiě)文字辨識(shí)、系統(tǒng)模式辨識(shí)中,神經(jīng)元網(wǎng)絡(luò)算法已經(jīng)被大量應(yīng)用。而在多種神經(jīng)元網(wǎng)絡(luò)算法中,反向傳播神經(jīng)元網(wǎng)絡(luò)(BackPropagationNeuralNetwork,BPNN)又是應(yīng)用最為廣泛的一種算法。目前已經(jīng)有數(shù)學(xué)證明給出明確結(jié)論,在一定數(shù)量的神經(jīng)元和一定數(shù)量網(wǎng)絡(luò)層的支持下,通過(guò)每個(gè)神經(jīng)元中的線性部分和非線性部分的組合,該神經(jīng)元網(wǎng)絡(luò)可以以任意精度逼近任何連續(xù)函數(shù)。以上特性為BPNN的廣泛應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。因?yàn)槿魏我环N數(shù)據(jù)辨識(shí)應(yīng)用的本質(zhì)即為函數(shù)擬合,而B(niǎo)PNN的特性可以良好的適用數(shù)據(jù)辨識(shí)應(yīng)用的需求。典型結(jié)構(gòu)的BPNN中包括輸入層和輸出層,輸入層包含多個(gè)輸入端,輸出層包含多個(gè)輸出端,BPNN中還包括多個(gè)神經(jīng)元,神經(jīng)元處于隱層中。在執(zhí)行數(shù)據(jù)辨識(shí)中,待辨識(shí)數(shù)據(jù)從輸入層輸入,辨識(shí)結(jié)果從輸出層輸出。但是在當(dāng)前大數(shù)據(jù)應(yīng)用的背景下,BPNN的先天缺陷導(dǎo)致其在大數(shù)據(jù)處理中的效率極為低下,主要原因?yàn)椋鹤鳛橛斜O(jiān)督的啟發(fā)式機(jī)器學(xué)習(xí)算法,BPNN需要對(duì)算法進(jìn)行訓(xùn)練。而伴隨數(shù)據(jù)體量增大,訓(xùn)練時(shí)間將大大變長(zhǎng),嚴(yán)重影響算法效率。
技術(shù)實(shí)現(xiàn)思路
因此,本專利技術(shù)要解決的技術(shù)問(wèn)題在于克服現(xiàn)有的數(shù)據(jù)識(shí)別方法效率低缺陷。有鑒于此,本專利技術(shù)提供一種分布式數(shù)據(jù)識(shí)別方法,包括:對(duì)所有待識(shí)別數(shù)據(jù)進(jìn)行分割以形成多個(gè)數(shù)據(jù)塊,所述數(shù)據(jù)塊中包括用于訓(xùn)練的待識(shí)別數(shù)據(jù)和用于檢測(cè)的待識(shí)別數(shù)據(jù);MapReduce架構(gòu)中的各個(gè)MapFunction計(jì)算單元分別獲取不同的所述數(shù) ...
【技術(shù)保護(hù)點(diǎn)】
一種分布式數(shù)據(jù)識(shí)別方法,其特征在于,包括:對(duì)所有待識(shí)別數(shù)據(jù)進(jìn)行分割以形成多個(gè)數(shù)據(jù)塊,所述數(shù)據(jù)塊中包括用于訓(xùn)練的待識(shí)別數(shù)據(jù)和用于檢測(cè)的待識(shí)別數(shù)據(jù);MapReduce架構(gòu)中的各個(gè)Map?Function計(jì)算單元分別獲取不同的所述數(shù)據(jù)塊;所述各個(gè)Map?Function計(jì)算單元分別利用獲取到的數(shù)據(jù)塊中的用于訓(xùn)練的待識(shí)別數(shù)據(jù)對(duì)本地預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;在訓(xùn)練過(guò)程結(jié)束后,所述各個(gè)Map?Function計(jì)算單元分別利用經(jīng)過(guò)訓(xùn)練的所述神經(jīng)網(wǎng)絡(luò)模型對(duì)獲取到的數(shù)據(jù)塊中的用于檢測(cè)的待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別以得到識(shí)別結(jié)果;所述MapReduce架構(gòu)中的Reduce?Function單元獲取所述各個(gè)Map?Function計(jì)算單元的所述識(shí)別結(jié)果,并對(duì)所有識(shí)別結(jié)果進(jìn)行篩選以得到一個(gè)識(shí)別結(jié)果。
【技術(shù)特征摘要】
1.一種分布式數(shù)據(jù)識(shí)別方法,其特征在于,包括:對(duì)所有待識(shí)別數(shù)據(jù)進(jìn)行分割以形成多個(gè)數(shù)據(jù)塊,所述數(shù)據(jù)塊中包括用于訓(xùn)練的待識(shí)別數(shù)據(jù)和用于檢測(cè)的待識(shí)別數(shù)據(jù);MapReduce架構(gòu)中的各個(gè)MapFunction計(jì)算單元分別獲取不同的所述數(shù)據(jù)塊;所述各個(gè)MapFunction計(jì)算單元分別利用獲取到的數(shù)據(jù)塊中的用于訓(xùn)練的待識(shí)別數(shù)據(jù)對(duì)本地預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;在訓(xùn)練過(guò)程結(jié)束后,所述各個(gè)MapFunction計(jì)算單元分別利用經(jīng)過(guò)訓(xùn)練的所述神經(jīng)網(wǎng)絡(luò)模型對(duì)獲取到的數(shù)據(jù)塊中的用于檢測(cè)的待識(shí)別數(shù)據(jù)進(jìn)行識(shí)別以得到識(shí)別結(jié)果;所述MapReduce架構(gòu)中的ReduceFunction單元獲取所述各個(gè)MapFunction計(jì)算單元的所述識(shí)別結(jié)果,并對(duì)所有識(shí)別結(jié)果進(jìn)行篩選以得到一個(gè)識(shí)別結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所有待識(shí)別數(shù)據(jù)進(jìn)行分割以形成多個(gè)數(shù)據(jù)塊,包括:采用自助算法對(duì)所有待識(shí)別數(shù)據(jù)進(jìn)行有放回抽樣,以形成多個(gè)子樣本集合,所述自助算法中的有放回次數(shù)與所述MapFunction計(jì)算單元的數(shù)量相同;分別對(duì)所述子樣本集合中的待識(shí)別數(shù)據(jù)進(jìn)行歸一化處理以得到歸一化待識(shí)別數(shù)據(jù)sk;采用數(shù)據(jù)結(jié)構(gòu)<instancek,targetk,type>分別將sk存儲(chǔ)在多個(gè)數(shù)據(jù)塊中,其中,instancek為sk,targetk為sk的訓(xùn)練目標(biāo),type為待識(shí)別數(shù)據(jù)的用途,所述用途包括訓(xùn)練用途和檢測(cè)用途;將所有數(shù)據(jù)塊存儲(chǔ)至分布式文件系統(tǒng)中。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述各個(gè)MapFunction計(jì)算單元分別利用獲取到的數(shù)據(jù)塊中的用于訓(xùn)練的待識(shí)別數(shù)據(jù)對(duì)本地預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,包括:各個(gè)MapFunction計(jì)算單元分別從所述分布式文件系統(tǒng)中讀取不同的數(shù)據(jù)塊;各個(gè)MapFunction計(jì)算單元中的神經(jīng)網(wǎng)絡(luò)模型分別根據(jù)字段type確定sk的用途,對(duì)于訓(xùn)練用途的sk,則神經(jīng)網(wǎng)絡(luò)模型從輸入層輸入sk,針對(duì)每一層的神經(jīng)元執(zhí)行正向傳遞;當(dāng)正向傳遞執(zhí)行至輸出層后,正向傳遞過(guò)程結(jié)束,神經(jīng)網(wǎng)絡(luò)模型對(duì)訓(xùn)練數(shù)據(jù)sk進(jìn)行反向傳遞;各個(gè)MapFunction計(jì)算單元針對(duì)每一訓(xùn)練用途的sk執(zhí)行預(yù)定次數(shù)的正向傳遞和反向傳遞,直至所有訓(xùn)練用途的sk均被處理完畢。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述針對(duì)每一層的神經(jīng)元執(zhí)行正向傳遞,包括:在所述神經(jīng)網(wǎng)絡(luò)模型的每一個(gè)神經(jīng)元內(nèi),其線性部分執(zhí)行:Ij=∑iwijoj′+θj,其中Ij為線性部分輸出,wij為該神經(jīng)元權(quán)值,θj為該神經(jīng)元偏移量,oj′為上一層神經(jīng)元非線性部分輸出;在每一個(gè)神經(jīng)元非線性部分,執(zhí)行:oj為非線性部分輸出(也即每一個(gè)神經(jīng)元輸出至下一層神經(jīng)元的輸出),Ij為該神經(jīng)元內(nèi)的線性部分輸出;所述神經(jīng)網(wǎng)絡(luò)模型對(duì)訓(xùn)練數(shù)據(jù)sk進(jìn)行反向傳遞,包括:在所述神經(jīng)網(wǎng)絡(luò)模型的輸出層執(zhí)行:Errj=oj(1-oj)(tj-oj),Errj為輸出層誤差敏感度,tj為sk所對(duì)應(yīng)的targetk;在所述神經(jīng)網(wǎng)絡(luò)模型的隱層執(zhí)行:Errj=oj(1-oj)∑kErrkwkj,Errk為隱層中反向傳遞過(guò)程中上一層的誤差敏感度,wkj為反向過(guò)程中上一層神經(jīng)元權(quán)重;在反向傳遞過(guò)程中,每一個(gè)神經(jīng)元通過(guò)誤差敏感度調(diào)整自身權(quán)值w和偏移量θ:Δwij=Errjoj,wij=wij+Δwij,Δθj=Errj,θj=θj+Δθj。5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)模型為反向傳播神經(jīng)元網(wǎng)絡(luò)模型,所述各個(gè)MapFunction計(jì)算單元在執(zhí)行所述利用獲取到的數(shù)據(jù)塊中的用于訓(xùn)練的待識(shí)別數(shù)據(jù)對(duì)本地預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練的步驟之前,分別獨(dú)立初始化本地的神經(jīng)網(wǎng)絡(luò)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉洋,劉劍,許立雄,沈曉東,
申請(qǐng)(專利權(quán))人:四川大學(xué),
類型:發(fā)明
國(guó)別省市:四川,51
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。