一種實現大數據實時處理的方法技術

技術編號：8131131 閱讀：1180 留言：0更新日期：2012-12-27 03:22

本發明專利技術公開一種大數據實時處理方法，涉及計算機應用系統領域。本發明專利技術數據的入庫，查詢，傳輸都是并發的，實時的。在分發任務的同時，進行過濾索引，過濾索引的同時，將過濾完的索引文件分發到datanode上面，同時datanode完成本地文件的查詢，并向客戶端返回數據。任何datanode的查詢完成，即向用戶返回查詢結果。本發明專利技術方法處理過程都是并發執行的，最大限度的利用了計算機的硬件設備，高效B+結構和查詢的并行執行，使查詢達到了實時完成，極大地提高了查詢的效率，用戶執行查詢操作時便能獲得查詢結果。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機應用系統領域，具體涉及ー種涉及海量數據實時處理的方法。
技術介紹
隨著信息化的發展，企業要處理的數據爆炸式的增長，數據量都達到了 TB級，PB級，由此帶來了一系列的問題。數據量的增多，系統的負載越來越大，數據的入庫和查詢性能隨之下降。在不增加硬件成本的情況下，如何發揮系統的最大性能，使入庫，查詢速度最快，是許多企業面臨的難題。云計算的出現為海量數據處理提供了有效地解決途徑，在通常的云計算解決方案中，通過Hadoop (—種分布式系統基礎架構)的HDFS (—種分布式文件系統)可以方便的實現海量數據存儲，同時有效防止單點故障，避免不必要的損失。但是，在HDFS上進行數據檢索時，常用的方法是開啟全局捜索MapReduce (大規模數據并行運算)，這需要完整過濾一遍·HDFS上存儲的所有數據。在云計算中，尤其是在海量數據情況下，這樣做會對系統資源造成巨大的浪費，耗費大量的時間，這顯然不是一個適合投入現實生產環境的方式。
技術實現思路
本專利技術的目的在于克服現有云計算解決方案中常用數據處理方法會造成系統資源浪費，數據處理時間長的缺點，提供一種有效的海量數據實時處理方法。本專利技術的實現大數據實時處理方法，其數據的入庫，查詢，傳輸都是并發的，實時的 (1)實時入庫以現有的HDFS為基礎，在每臺datanode(數據節點)上啟動多線程創建索引，并行創建索引文件，索引的創建以B+樹的結構生成； (2)實時查詢使用分布式計算系統，在服務器端創建并提交job(任務)進行查詢，查詢分為三步 A.namenode (控制節點)上進行索引過濾，由于索引文...

【技術保護點】
一種大數據實時處理方法，其特征在于數據的入庫，查詢，傳輸都是并發的，實時的：（1）實時入庫：以現有的HDFS為基礎，在每臺datanode上啟動多線程創建索引，并行創建索引文件，索引的創建以B+樹的結構生成；（2）實時查詢：使用分布式計算系統，在服務器端創建并提交job進行查詢，查詢分為三步：A.？namenode上進行索引過濾，由于索引文件名是按照時間創建的，根據查詢條件中的時間和索引文件名匹配，篩選滿足條件的索引文件；B.將任務分發到每臺datanode上，根據篩選出的索引文件和查詢條件通過B+樹查詢，得到滿足條件的數據的位置；C.再次進行任務的分發，根據上一步得到的數據的位置在每臺機器上讀取數據，并返回查詢結果；（3）實時結果傳輸：使用jetty作為web容器，在HDFS上做數據查詢的同時，jetty輪循查詢結果目錄，如果不為空，則讀取查詢結果文件并返回給客戶端，客戶端繼續向服務器端發送continue請求，服務器端啟動多線程讀取查詢結果，將讀取數據返回給客戶端，如果返回的讀取數據為空，流程結束，如果不為空，客戶端繼續發送continue請求；查詢過程中，任何datanode查詢...

【技術特征摘要】
1.ー種大數據實時處理方法，其特征在于數據的入庫，查詢，傳輸都是并發的，實時的 (1)實時入庫以現有的HDFS為基礎，在每臺datanode上啟動多線程創建索引，并行創建索引文件，索引的創建以B+樹的結構生成； (2)實時查詢使用分布式計算系統，在服務器端創建并提交job進行查詢，查詢分為~- j_hiニ少 A.namenode上進行索引過濾，由于索引文件名是按照時間創建的，根據查詢條件中的時間和索引文件名匹配，篩選滿足條件的索引文件； B.將任務分發到每臺datanode上，根據篩選出的索引文件和查詢條件通過B+樹查詢，得到滿足...

【專利技術屬性】
技術研發人員：張真，王磊，陳偉，王胤然，楊震宇，王磊，周亮亮，
申請(專利權)人：南京云創存儲科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術