本發(fā)明專利技術(shù)公開了一種面向大數(shù)據(jù)的數(shù)據(jù)處理方法和裝置,該方法包括:獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù);選擇處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式;根據(jù)所選擇的壓縮方式對數(shù)據(jù)進(jìn)行處理;處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)和磁盤的性能指標(biāo);負(fù)載場景數(shù)據(jù)包括讀操作比例和寫操作比例,讀操作比例與寫操作比例相加為1。本發(fā)明專利技術(shù)能夠指導(dǎo)在不同運(yùn)行環(huán)境、不同負(fù)載場景下的壓縮方式的選擇,優(yōu)化大數(shù)據(jù)處理性能。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法和裝置
本專利技術(shù)涉及大數(shù)據(jù)領(lǐng)域,具體涉及一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法和裝置。
技術(shù)介紹
隨著人類社會(huì)全面進(jìn)入信息時(shí)代,數(shù)據(jù)成為與水、石油同等重要的戰(zhàn)略資源。通過挖掘海量數(shù)據(jù),能夠使政府和企業(yè)的運(yùn)行決策建立在更加科學(xué)的依據(jù)基礎(chǔ)上,提高決策效率、危機(jī)應(yīng)對能力和公共服務(wù)水平。大數(shù)據(jù)雖然極具價(jià)值,但由于規(guī)模巨大,面臨著持續(xù)可擴(kuò)展問題。例如,數(shù)據(jù)倉庫中常用的記錄某個(gè)對象行為的歷史狀態(tài)數(shù)據(jù),在大數(shù)據(jù)時(shí)代隨著對象數(shù)量(如客戶)的急速增加,以及每個(gè)處理對象行為(如客戶交易)的迅速增加,規(guī)模成爆炸式增長,給處理環(huán)境的CPU、存儲(chǔ)、網(wǎng)絡(luò)帶來的巨大壓力。其中,CPU通過水平擴(kuò)展能夠滿足大數(shù)據(jù)處理需求,而磁盤讀寫IO和網(wǎng)絡(luò)傳輸IO由于機(jī)械部件、工藝技術(shù)、物理介質(zhì)等條件限制,成為制約大數(shù)據(jù)處理的主要瓶頸。為此,采用壓縮方式進(jìn)行大數(shù)據(jù)的存儲(chǔ)和傳輸,以犧牲少量CPU時(shí)間解壓縮換取IO時(shí)間,成為提高大數(shù)據(jù)處理性能的一個(gè)必然選擇。針對上述需求,當(dāng)前的主流大數(shù)據(jù)處理系統(tǒng),如Hadoop、HBase> Hive等,都支持在應(yīng)用中Gzip、LZO、Snappy等壓縮方式,然而,由于編解碼方式和解壓縮方法不同,各種方法的壓縮率、編解碼速度各有不同,遵循著壓縮效果越好壓縮/解壓縮效率越低這一矛盾統(tǒng)一的客觀規(guī)律。因此,針對不同網(wǎng)絡(luò)帶寬、磁盤速度等的大數(shù)據(jù)處理環(huán)境,以及不同負(fù)載特征的大數(shù)據(jù)應(yīng)用場景,應(yīng)該如何選擇是否應(yīng)該采用壓縮方法,采用何種壓縮方式,是大數(shù)據(jù)設(shè)計(jì)面臨的一個(gè)關(guān)鍵問題。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)所要解決的技術(shù)問題在于,本專利技術(shù)提出一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法,通過計(jì)算各種壓縮方式在不同運(yùn)行環(huán)境、不同負(fù)載場景下的性能指標(biāo)指導(dǎo)壓縮方式的選擇,從而降低處理延遲。為了解決上述問題,本專利技術(shù)提供一種面向大數(shù)據(jù)的數(shù)據(jù)處理方法,該方法包括:獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù);選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式;根據(jù)所選擇的壓縮方式對數(shù)據(jù)進(jìn)行處理;所述處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)和磁盤的性能指標(biāo);[0011 ] 所述負(fù)載場景數(shù)據(jù)包括讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為I。優(yōu)選地,所述方法還包括:選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps且磁盤的性能指標(biāo)為低于200MBps時(shí)、在CPU利用率不足50%時(shí),使用壓縮方法進(jìn)行讀、寫操作。優(yōu)選地,所述方法還包括:選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為高于IOGbps且磁盤的性能指標(biāo)為高于600MBps時(shí),使用壓縮方法進(jìn)行讀操作、不進(jìn)行寫操作。優(yōu)選地,所述方法還包括:使用壓縮方法進(jìn)行讀、寫操作包括:選擇使用Snappy壓縮方式進(jìn)行寫操作,選擇使用LZO壓縮方式進(jìn)行讀操作。優(yōu)選地,所述方法還包括:選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在所述讀操作的比例在90%以上時(shí),選擇使用Snappy或LZO壓縮方式。優(yōu)選地,所述方法還包括:選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps時(shí),選擇使用LZO壓縮方式。優(yōu)選地,所述方法還包括:選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為高于IOGbps時(shí),選擇使用Snappy壓縮方式。為了解決上述問題,本專利技術(shù)還提供一種面向大數(shù)據(jù)的數(shù)據(jù)處理裝置,該裝置包括:獲取模塊,用于獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù);所述處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)和磁盤的性能指標(biāo);所述負(fù)載場景數(shù)據(jù)包括讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為I;選擇模塊,用于選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式;處理模塊,用于根據(jù)所選擇的壓縮方式對數(shù)據(jù)進(jìn)行處理。優(yōu)選地,所述裝置還具有以下特點(diǎn):選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps且磁盤的性能指標(biāo)為低于200MBps時(shí)、在CPU利用率不足50%時(shí),使用壓縮方法進(jìn)行讀、寫操作。優(yōu)選地,所述裝置還具有以下特點(diǎn):選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為高于IOGbps且磁盤的性能指標(biāo)為高于600MBps時(shí),使用壓縮方法進(jìn)行讀操作、不進(jìn)行寫操作。上述面向大數(shù)據(jù)的數(shù)據(jù)處理方法及裝置,能夠指導(dǎo)在不同運(yùn)行環(huán)境、不同負(fù)載場景下的壓縮方式選擇,優(yōu)化大數(shù)據(jù)處理性能。【附圖說明】圖1所示為本專利技術(shù)實(shí)施例面向大數(shù)據(jù)的數(shù)據(jù)處理方法流程圖;圖2所示為本專利技術(shù)實(shí)施例面向大數(shù)據(jù)的數(shù)據(jù)處理裝置示意圖。【具體實(shí)施方式】以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本專利技術(shù)的實(shí)施方式,借此對本專利技術(shù)如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。需要說明的是,如果不沖突,本專利技術(shù)實(shí)施例以及實(shí)施例中的各個(gè)特征的相互均在本專利技術(shù)的保護(hù)范圍之內(nèi)。本專利技術(shù)的實(shí)施例提供了一種面向大數(shù)據(jù)處理的數(shù)據(jù)處理方法,如圖1所示,包括:步驟SlOl:獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù);所述處理環(huán)境數(shù)據(jù)包括但不限于:網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)和磁盤的性能指標(biāo);可選地,所述網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)包括但不限于為網(wǎng)絡(luò)傳輸?shù)膸挘疟P的性能指標(biāo)包括但不限于為磁盤的讀寫速度。可選地,所述負(fù)載場景數(shù)據(jù)包括但不限于:讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為I。步驟S102:選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式;具體為,包括但不限于:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為高于IOGbps且磁盤的性能指標(biāo)為高于600MBps時(shí),使用壓縮方法進(jìn)行讀操作、不進(jìn)行寫操作。在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps且磁盤的性能指標(biāo)為低于200MBps時(shí)、在CPU利用率不足50%時(shí),使用壓縮方法進(jìn)行讀、寫操作。可選地,選擇使用Snappy壓縮方式進(jìn)行寫操作,選擇使用LZO壓縮方式進(jìn)行讀操作。在所述讀操作的比例在90%以上時(shí),可選地,選擇使用Snappy或LZO壓縮方式。可選地,在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps時(shí),選擇使用LZO壓縮方式。可選地,在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為高于IOGbps時(shí),選擇使用Snappy壓縮方式。步驟S103:根據(jù)所選擇的壓縮方式對數(shù)據(jù)進(jìn)行處理。為了實(shí)現(xiàn)上述方法,本專利技術(shù)還提供了一種面向大數(shù)據(jù)的數(shù)據(jù)處理裝置,如圖2所示,該裝置包括:獲取模塊,用于獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù);可選地,所述網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)包括但不限于為網(wǎng)絡(luò)傳輸?shù)膸挘疟P的性能指標(biāo)包括但不限于為磁盤的讀寫速度。可選地,所述負(fù)載場景數(shù)據(jù)包括但不限于:讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為I。選擇模塊,用于選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式;具體是指:在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為高于IOGbps且磁盤的性能指標(biāo)為高于600MBps時(shí),使用壓縮方法進(jìn)行讀操作、不進(jìn)行寫操作。在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps且磁盤的性能指標(biāo)為低于200MBps時(shí)、在CPU利用率不足50%時(shí),使用壓縮方法進(jìn)行讀、寫操作。可選地,選擇使用Snappy壓縮方式進(jìn)行寫操作,選擇使用LZO壓縮方式進(jìn)行讀操作。在所述讀操作的比例在90%以上時(shí),可選地,選擇使用Snappy或LZO壓縮方式。可選地,在網(wǎng)絡(luò)傳輸?shù)男阅苤副疚臋n來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種面向大數(shù)據(jù)的數(shù)據(jù)處理方法,其特征在于,包括:獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù);選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式;根據(jù)所選擇的壓縮方式對數(shù)據(jù)進(jìn)行處理;所述處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)和磁盤的性能指標(biāo);所述負(fù)載場景數(shù)據(jù)包括讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為1。
【技術(shù)特征摘要】
1.一種面向大數(shù)據(jù)的數(shù)據(jù)處理方法,其特征在于,包括: 獲取處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù); 選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式; 根據(jù)所選擇的壓縮方式對數(shù)據(jù)進(jìn)行處理; 所述處理環(huán)境數(shù)據(jù)包括網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)和磁盤的性能指標(biāo); 所述負(fù)載場景數(shù)據(jù)包括讀操作比例和寫操作比例,所述讀操作比例與寫操作比例相加為I。2.如權(quán)利要求1所述的方法,其特征在于,選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括: 在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為低于IGbps且磁盤的性能指標(biāo)為低于200MBps時(shí)、在CPU利用率不足50 %時(shí),使用壓縮方法進(jìn)行讀、寫操作。3.如權(quán)利要求1所述的方法,其特征在于,選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括: 在網(wǎng)絡(luò)傳輸?shù)男阅苤笜?biāo)為聞?dòng)贗OGbps且磁盤的性能指標(biāo)為聞?dòng)?00MBps時(shí),使用壓縮方法進(jìn)行讀操作、不進(jìn)行寫操作。4.如權(quán)利要求2所述的方法,其特征在于,使用壓縮方法進(jìn)行讀、寫操作包括: 選擇使用Snappy壓縮方式進(jìn)行寫操作,選擇使用LZO壓縮方式進(jìn)行讀操作。5.如權(quán)利要求1所述的方法,其特征在于,選擇所述處理環(huán)境數(shù)據(jù)及負(fù)載場景數(shù)據(jù)對應(yīng)的壓縮方式包括: 在所述讀操作的比例在90%以上時(shí),選擇使用Snappy或LZO壓縮方式。6.如權(quán)利要求5所述的方法...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:亓開元,辛國茂,趙仁明,房體盈,
申請(專利權(quán))人:浪潮北京電子信息產(chǎn)業(yè)有限公司,
類型:發(fā)明
國別省市:北京;11
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。