MapReduce計算框架中的高性能排序方法技術

技術編號：10344637 閱讀：168 留言：0更新日期：2014-08-21 16:43

本發(fā)明專利技術涉及一種MapReduce計算框架中的高性能排序方法。該方法在Map階段按照partition分別構建緩沖鏈，移除partition本身進行排序的需要，并且對于每一個partition數(shù)據(jù)將按照塊進行組織，降低了數(shù)據(jù)在內存中的拷貝以及文件IO方面的代價；在Map階段不執(zhí)行排序操作，在Reduce階段以一個較大的緩沖池作為一次排序的基本單位，使得在排序的歸并階段總的歸并路數(shù)是一個用戶可調優(yōu)的值。本發(fā)明專利技術通過一種混合的內存排序算法，優(yōu)化了MapReduce框架中排序的兩個階段，基本消除了排序對于計算框架的性能影響，進而提升了計算框架的資源有效性，降低了集群的整體資源消耗。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術屬于信息
，涉及一種對分布式計算框架的優(yōu)化方法，特別涉及一種在MapReduce計算框架中提高排序性能的方法。
技術介紹
MapReduce是分布式計算中的一種標準框架，但在資源消耗方面，現(xiàn)有MapReduce框架并不高效，導致大量集群資源被浪費。現(xiàn)有MapReduce框架中需要對中間數(shù)據(jù)的key/value對進行排序，并且排序構成了現(xiàn)有計算框架中主要的資源消耗。我們以MapReduce的開源實現(xiàn)hadoop為例，說明上述問題。如圖1所示，為傳統(tǒng)MapReduce數(shù)據(jù)流程示意圖。其中Hadoop文件系統(tǒng)(簡稱HDFS,Hadoop File System)負責數(shù)據(jù)的分布式存儲。計算框架所執(zhí)行任務(Job)從HDFS讀入數(shù)據(jù)經(jīng)過處理后再寫入到HDFS。在計算框架內部分為Map和Reduce兩個階段，Map階段將HDFS上的數(shù)據(jù)執(zhí)行用戶自定義的Map函數(shù)，然后對輸出的中間數(shù)據(jù)首先放入內存，然后排序后寫入本地磁盤。在Reduce階段，每個Reduce接收來自各個Map的排序后的中間數(shù)據(jù)然后進行歸并。框架對同一 key下的所有value調用用戶自定義的Reduce函數(shù)進行計算后寫入到HDFS。具體的數(shù)據(jù)流程可以參見圖1。在如圖1所示的原有的數(shù)據(jù)流程中，排序所需要的工作量3，5，7，8消耗了大部分的框架CPU資源。這種消耗又可以分為內存排序和多路歸并兩個階段。1、流程3中對中間數(shù)據(jù)進行基于內存的二級索引快速排序。排序的過程實際上是對16字節(jié)的索引進行排序，索引為一個四元組〈id, partition, key offset, value...
<a title="MapReduce計算框架中的高性能排序方法原文來自X技術">MapReduce計算框架中的高性能排序方法</a>

【技術保護點】
一種MapReduce計算框架中的高性能排序方法，其步驟包括：1）Map?Task從HDFS上讀取文件，構造輸入數(shù)據(jù)的key/value對；2）對輸入數(shù)據(jù)執(zhí)行用戶自定義Map函數(shù)并輸出中間結果的key/value對，并計算key所對應的partition；對內存中每個partition設置對應的緩沖鏈，將中間結果的key/value對首先計算長度，然后插入到緩沖鏈中；3）當內存無法放下所有中間結果的key/value對時，按照partition的順序，輸出所有緩沖鏈到本地文件；4）對經(jīng)過上述步驟后在內存和本地磁盤上形成的一個或多個未排序的結果按照partition的順序進行歸并，輸出成一個完整的按照partition進行分段的本地文件；5）Reduce?Task通過AppMaster獲得Map?Task結束的信息，向負責該Map數(shù)據(jù)托管的進程發(fā)送http請求，拖取該Map輸出的中間數(shù)據(jù)中屬于該Reduce的部分，將這些數(shù)據(jù)根據(jù)其大小選擇放于內存或放于本地磁盤；6）將內存或磁盤中的中間數(shù)據(jù)讀入內存中的排序緩沖池，當排序緩沖池滿時，對整個緩沖池進行排序；7）對于中間數(shù)據(jù)無法全部放在一個排序...

【技術特征摘要】
1.一種MapReduce計算框架中的高性能排序方法,其步驟包括: 1)Map Task從HDFS上讀取文件,構造輸入數(shù)據(jù)的key/value對； 2)對輸入數(shù)據(jù)執(zhí)行用戶自定義Map函數(shù)并輸出中間結果的key/value對，并計算key所對應的partition ;對內存中每個partition設置對應的緩沖鏈，將中間結果的key/value對首先計算長度,然后插入到緩沖鏈中； 3)當內存無法放下所有中間結果的key/value對時,按照partition的順序，輸出所有緩沖鏈到本地文件； 4)對經(jīng)過上述步驟后在內存和本地磁盤上形成的一個或多個未排序的結果按照partition的順序進行歸并,輸出成一個完整的按照partition進行分段的本地文件； 5)Reduce Task通過AppMaster獲得Map Task結束的信息，向負責該Map數(shù)據(jù)托管的進程發(fā)送http請求，拖取該Map輸出的中間數(shù)據(jù)中屬于該Reduce的部分，將這些數(shù)據(jù)根據(jù)其大小選擇放于內存或放于本地磁盤； 6)將內存或磁盤中的中間數(shù)據(jù)讀入內存中的排序緩沖池，當排序緩沖池滿時，對整個緩沖池進行排序； 7)對于中間數(shù)據(jù)無法全部放在一個排序緩沖池中的情況，在排序后將數(shù)據(jù)寫出到本地文件中。2.如權利要求1所述的方法，其特征在于，還包括如下步驟: 8)對內存和本地文件中的有序結果進行歸并，歸并結果作為用戶自定義Reduce函數(shù)的輸入...

【專利技術屬性】
技術研發(fā)人員：蔣達晟，陳薇，王騰蛟，
申請(專利權)人：北京大學，
類型：發(fā)明
國別省市：北京;11

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術

java高性能并發(fā)框架技術

高性能tcp服務器框架技術