The invention relates to a method based on batch processing and streaming data processing framework, including data acquisition module, real-time data acquisition from multiple data acquisition terminal, and the data collected will be transmitted to the batch processing module and stream processing module; batch processing module, the real-time data received for persistence the mechanism of treatment, re computation for real-time data processing by the persistence of batch processing, batch view generation different size according to the processing result; stream processing module, a mechanism for the incremental computation of real time data of the received stream, and generates a stream processing view of different size according to the results; data merging module, the combined strategy of batch flow view, process view merging; data visualization module of batch as Graphs, stream processing views or merged batch views, stream processing views are displayed; a resource monitoring module is used to monitor the resources of the above modules.
【技術實現步驟摘要】
基于批處理和流式處理的數據處理架構及數據處理方法
本專利技術涉及數據處理
,更具體地,涉及一種基于批處理和流式處理的數據處理架構及數據處理方法。
技術介紹
隨著互聯網的普及、物聯網的快速發展以及智能手機等設備的廣泛使用,使得人們能隨時隨地產生數據,引起了數據的爆炸式增長。針對大規模數據,人們已經提出分布式的批處理模型和流式處理模型。其中,批處理模型實現了大規模歷史數據的高吞吐、海量分析和挖掘,它先存儲后計算,往往適用于實時性要求不高,同時數據的準確性和全面性更為重要的場景,批處理模型被廣泛的應用于離線分析、離線機器學習等領域。而流式處理模型更注重于對流式數據的實時分析,數據以流的方式到達,攜帶了大量信息,只有小部分的流式數據被保存在有限的內存中。流式處理模型被廣泛地應用在在線推薦、在線分析、在線機器學習等低延時的場景中。然而,批處理模型和流式處理模型的數據處理模式單一、使用場景有限,它們都是針對單一的問題和場景提出的解決方案,兩者之間并不具備通用性。批處理模型能夠處理更加全面的數據進而得到比較準確的結果,卻延時比較大。流式處理模型能低延時地進行計算,卻只在內存中緩存比較有限的數據導致計算精度比較低。而隨著科技的進步,現代企業越來越需要一種低延時的方法同時處理歷史數據和實時數據。既能保證對整個數據集的全面處理,又能保證處理的效率。
技術實現思路
本專利技術為解決以上技術的難題,提供了一種基于批處理和流式處理的數據處理架構,該架構具備批處理和流式處理的能力,因而在保證對數據集進行全面處理的同時能夠兼顧處理的效率。為實現以上專利技術目的,采用的技術方案是:一種 ...
【技術保護點】
一種基于批處理和流式處理的數據處理架構,其特征在于:包括數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊和資源監控模塊;其中數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;所述批處理模塊用于對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;所述流式處理模塊用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;所述數據合并模塊用于根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;所述數據可視化模塊用于對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;所述資源監控模塊用于對數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。
【技術特征摘要】
1.一種基于批處理和流式處理的數據處理架構,其特征在于:包括數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊和資源監控模塊;其中數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;所述批處理模塊用于對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;所述流式處理模塊用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;所述數據合并模塊用于根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;所述數據可視化模塊用于對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;所述資源監控模塊用于對數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。2.根據權利要求1所述的基于批處理和流式處理的數據處理架構,其特征在于:所述數據采集模塊包括數據收集子模塊和數據清洗子模塊,所述數據收集子模塊用于接收從多個數據采集終端中獲取采集的實時數據,所述數據清洗子模塊用于采用相應的過濾規則對接收的實時數據進行清洗。3.根據權利要求1所述的基于批處理和流式處理的數據處理架構,其特征在于:所述批處理模塊包括數據預處理子模塊、數據處理子模塊和批處理視圖存儲子模塊;所述數據預處理子模塊用于對接收的實時數據采用數據集成技術、數據變換技術、數據規約技術進行持久化處理;所述數據處理子模塊在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批處理;所述批處理視圖存儲子模塊用于將數據處理子模塊得到的處...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。