• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>中山大學專利>正文

    基于批處理和流式處理的數據處理架構及數據處理方法技術

    技術編號:15690538 閱讀:100 留言:0更新日期:2017-06-24 03:00
    本發明專利技術涉及一種基于批處理和流式處理的數據處理架構,包括:數據采集模塊,從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;批處理模塊,對接收的實時數據進行持久化處理,采用重計算的機制對經持久化處理的實時數據進行批量處理,根據處理的結果生成不同粒度的批處理視圖;流式處理模塊,用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;數據合并模塊,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;數據可視化模塊,對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;資源監控模塊,用于對以上模塊進行資源監控。

    Data processing architecture and data processing method based on batch processing and stream processing

    The invention relates to a method based on batch processing and streaming data processing framework, including data acquisition module, real-time data acquisition from multiple data acquisition terminal, and the data collected will be transmitted to the batch processing module and stream processing module; batch processing module, the real-time data received for persistence the mechanism of treatment, re computation for real-time data processing by the persistence of batch processing, batch view generation different size according to the processing result; stream processing module, a mechanism for the incremental computation of real time data of the received stream, and generates a stream processing view of different size according to the results; data merging module, the combined strategy of batch flow view, process view merging; data visualization module of batch as Graphs, stream processing views or merged batch views, stream processing views are displayed; a resource monitoring module is used to monitor the resources of the above modules.

    【技術實現步驟摘要】
    基于批處理和流式處理的數據處理架構及數據處理方法
    本專利技術涉及數據處理
    ,更具體地,涉及一種基于批處理和流式處理的數據處理架構及數據處理方法。
    技術介紹
    隨著互聯網的普及、物聯網的快速發展以及智能手機等設備的廣泛使用,使得人們能隨時隨地產生數據,引起了數據的爆炸式增長。針對大規模數據,人們已經提出分布式的批處理模型和流式處理模型。其中,批處理模型實現了大規模歷史數據的高吞吐、海量分析和挖掘,它先存儲后計算,往往適用于實時性要求不高,同時數據的準確性和全面性更為重要的場景,批處理模型被廣泛的應用于離線分析、離線機器學習等領域。而流式處理模型更注重于對流式數據的實時分析,數據以流的方式到達,攜帶了大量信息,只有小部分的流式數據被保存在有限的內存中。流式處理模型被廣泛地應用在在線推薦、在線分析、在線機器學習等低延時的場景中。然而,批處理模型和流式處理模型的數據處理模式單一、使用場景有限,它們都是針對單一的問題和場景提出的解決方案,兩者之間并不具備通用性。批處理模型能夠處理更加全面的數據進而得到比較準確的結果,卻延時比較大。流式處理模型能低延時地進行計算,卻只在內存中緩存比較有限的數據導致計算精度比較低。而隨著科技的進步,現代企業越來越需要一種低延時的方法同時處理歷史數據和實時數據。既能保證對整個數據集的全面處理,又能保證處理的效率。
    技術實現思路
    本專利技術為解決以上技術的難題,提供了一種基于批處理和流式處理的數據處理架構,該架構具備批處理和流式處理的能力,因而在保證對數據集進行全面處理的同時能夠兼顧處理的效率。為實現以上專利技術目的,采用的技術方案是:一種基于批處理和流式處理的數據處理架構,包括數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊和資源監控模塊;其中數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;所述批處理模塊用于對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;所述流式處理模塊用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;所述數據合并模塊用于根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;所述數據可視化模塊用于對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;所述資源監控模塊用于對數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。優選地,所述數據采集模塊包括數據收集子模塊和數據清洗子模塊,所述數據收集子模塊用于接收從多個數據采集終端中獲取采集的實時數據,所述數據清洗子模塊用于采用相應的過濾規則對接收的實時數據進行清洗。優選地,所述批處理模塊包括數據預處理子模塊、數據處理子模塊和批處理視圖存儲子模塊;所述數據預處理子模塊用于對接收的實時數據采用數據集成技術、數據變換技術、數據規約技術進行持久化處理;所述數據處理子模塊在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批處理;所述批處理視圖存儲子模塊用于將數據處理子模塊得到的處理結果保存在Hbase中,以生成不同粒度的批處理視圖。優選地,所述流式處理模塊包括數據處理子模塊、流式處理視圖存儲子模塊,其中所述數據處理子模塊用于采用增量計算的機制對實時數據進行流式處理,所述流式處理視圖存儲子模塊用于對數據處理子模塊產生的數據處理結果保存在Hbase中,以生成不同粒度的流式處理視圖。優選地,所述數據采集模塊采用Flume日志采集系統實現。優選地,所述批處理模塊采用Spark集群實現。優選地,所述流式處理模塊采用Storm集群實現。同時,本專利技術還提供了一種基于以上架構的數據處理方法,其方案具體包括以下步驟:S1.數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;S2.批處理模塊對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;S3.流式處理模塊對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;S4.數據合并模塊根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;S5.數據可視化模塊對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;S6.資源監控模塊對以上流程中數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。與現有技術相比,本專利技術的有益效果是:本專利技術提供的架構通過將批處理模塊、流式處理模塊搭配使用,可以保證整個計算結果的精準度,同時兼顧數據處理效率。附圖說明圖1為本專利技術提供的架構的結構圖。圖2為數據收集模塊的示意圖。圖3為Spark集群的計算任務執行圖。圖4為流式處理模塊中增量計算的流程圖。圖5、圖6、圖7為批處理模塊和流式處理模塊數據同步的示意圖。圖8為數據合并模塊執行數據處理的流程示意圖。具體實施方式附圖僅用于示例性說明,不能理解為對本專利的限制;以下結合附圖和實施例對本專利技術做進一步的闡述。實施例1批處理和流式處理的數據處理架構,如圖1所示,包括數據采集模塊10、批處理模塊20、流式處理模塊30、數據合并模塊40、數據可視化模塊50和資源監控模塊60;其中數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;所述批處理模塊用于對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;所述流式處理模塊用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;所述數據合并模塊用于根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;所述數據可視化模塊用于對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;所述資源監控模塊用于對數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。在具體的實施過程中,數據采集模塊10的具體實施方式可以為:采用分布式、高可靠和高可用的海量日志采集和傳輸系統對多源數據進行實時接收,如Flume日志采集系統。如圖2所示,該架構中設置了三個代理,分別為Agent1、Agent2和MasterAgent。Flume日志采集系統使用兩個Source接收外部數據,一個是Agent1中的AvroSource,用來監聽一個IP和端口號,另一個是Agent2中的Spooldir,用來監聽一個目錄。通過對采集到的實時數據進行初步的數據過濾之后,把從兩個Source接收到的數據發給MasterAgent中的AvroSource。該架構采用復制策略把AvroSource中接收到的數據同時發送到FileChannel和MemoryChannel中,然后數據最終被傳送到HDFSSink和Kafka本文檔來自技高網...
    基于批處理和流式處理的數據處理架構及數據處理方法

    【技術保護點】
    一種基于批處理和流式處理的數據處理架構,其特征在于:包括數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊和資源監控模塊;其中數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;所述批處理模塊用于對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;所述流式處理模塊用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;所述數據合并模塊用于根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;所述數據可視化模塊用于對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;所述資源監控模塊用于對數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。

    【技術特征摘要】
    1.一種基于批處理和流式處理的數據處理架構,其特征在于:包括數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊和資源監控模塊;其中數據采集模塊用于從多個數據采集終端中獲取采集的實時數據,并將采集的數據傳輸至批處理模塊和流式處理模塊;所述批處理模塊用于對接收的實時數據進行持久化處理,然后在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批量處理,并根據處理的結果生成不同粒度的批處理視圖;所述流式處理模塊用于對接收的實時數據采用增量計算的機制進行流式處理,并根據處理的結果生成不同粒度的流式處理視圖;所述數據合并模塊用于根據具體查詢需求,采用相應的合并策略對批處理視圖、流式處理視圖進行合并;所述數據可視化模塊用于對批處理視圖、流式處理視圖或合并后的批處理視圖、流式處理視圖進行展示;所述資源監控模塊用于對數據采集模塊、批處理模塊、流式處理模塊、數據合并模塊、數據可視化模塊進行資源監控。2.根據權利要求1所述的基于批處理和流式處理的數據處理架構,其特征在于:所述數據采集模塊包括數據收集子模塊和數據清洗子模塊,所述數據收集子模塊用于接收從多個數據采集終端中獲取采集的實時數據,所述數據清洗子模塊用于采用相應的過濾規則對接收的實時數據進行清洗。3.根據權利要求1所述的基于批處理和流式處理的數據處理架構,其特征在于:所述批處理模塊包括數據預處理子模塊、數據處理子模塊和批處理視圖存儲子模塊;所述數據預處理子模塊用于對接收的實時數據采用數據集成技術、數據變換技術、數據規約技術進行持久化處理;所述數據處理子模塊在滿足執行批處理條件的情況下,采用重計算的機制對經持久化處理的實時數據進行批處理;所述批處理視圖存儲子模塊用于將數據處理子模塊得到的處...

    【專利技術屬性】
    技術研發人員:吳賀俊馮輝
    申請(專利權)人:中山大學
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV永久青草无码精品| 人妻中文无码久热丝袜| 亚洲av永久中文无码精品综合| 久久亚洲AV无码精品色午夜麻豆 | 一级毛片中出无码| 国产乱人无码伦av在线a| 久久无码av三级| 精品一区二区三区无码免费直播| 永久免费av无码网站yy| 亚洲精品9999久久久久无码| 一本无码中文字幕在线观| 成人免费a级毛片无码网站入口| 亚洲AV永久无码精品成人| 亚洲精品无码专区久久同性男| 无码精品人妻一区二区三区漫画| 国产成人无码精品久久久露脸 | 亚洲av无码国产综合专区 | 精品人妻无码一区二区三区蜜桃一| 八戒理论片午影院无码爱恋| 国产成人无码a区在线观看视频免费 | 蜜桃臀无码内射一区二区三区| 成人免费无遮挡无码黄漫视频| 亚洲av无码一区二区三区天堂古代| 国产V片在线播放免费无码| 久久久久无码精品国产h动漫| 91精品日韩人妻无码久久不卡| 西西午夜无码大胆啪啪国模| 人妻中文无码久热丝袜| 中文精品无码中文字幕无码专区| 日韩精品无码免费视频| 成人免费无码大片a毛片| 在线看片无码永久免费aⅴ| 一本大道在线无码一区| 中文字幕精品三区无码亚洲| 久久久久久久人妻无码中文字幕爆| 亚洲av日韩av高潮潮喷无码| 一本无码中文字幕在线观| 久久午夜夜伦鲁鲁片免费无码| 亚洲VA中文字幕无码毛片| 国产在线无码视频一区二区三区 | 亚洲午夜无码片在线观看影院猛|