• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    分布式流式數據處理的方法和裝置制造方法及圖紙

    技術編號:15690913 閱讀:274 留言:0更新日期:2017-06-24 03:41
    本申請提供一種分布式流式數據處理的方法,包括:獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。通過本申請的技術方案,實現了按照數據更新的順序來進行數據處理,避免了因先處理更新在后的實時值導致的處理結果錯誤,提高了數據處理的準確度。

    Method and apparatus for distributed streaming data processing

    The present invention provides a method of distributed data stream processing includes: acquiring streaming data in a data recording business data identification information to be processed in real time value and pending real-time values of temporal characteristics; the identification information is the only representative of one or a group of business data; according to business data identification information storage with the corresponding relationship between the processed real-time values of temporal features, has acquired the business data processing of the real-time value of temporal characteristics; comparing the business data to be processed and processed real-time values of timing characteristics, when the timing has real value later than the value of real-time processing timing, the real-time value of pending business operation and store the real-time value for processing real-time update sequence feature value timing characteristics. Through the technical scheme of the application, the data according to the update sequence data processing, avoid the first update in real-time value after treatment results in error, improve the accuracy of data processing.

    【技術實現步驟摘要】
    分布式流式數據處理的方法和裝置
    本申請涉及數據處理
    ,尤其涉及一種分布式流式數據處理的方法和裝置。
    技術介紹
    隨著各種網絡應用日漸深入人們的日常生活,很多應用系統每天會產生數以TB(Terabyte,百萬兆字節)級計的業務數據。對這些海量數據的實時分析能夠提供對應用系統極有價值的信息,例如,對交通監管系統采集的海量視頻數據流的實時分析能夠為交通疏導提供幫助,對社交網站用戶訪問行為的實時分析能夠及時發現關注熱點并推送給更多的用戶。海量的實時業務數據通常保存在不同地點、不同軟硬件平臺、和/或不同類型的數據庫中,由實時數據采集系統將數據庫中實時變化的業務數據以流的方式源源不斷的收集起來,以進行實時數據處理。實時數據采集系統可以采用單線程實現;也可以采用分布式實現,由多個線程并發進行實時數據的采集。由于應用系統的業務數據隨時可能發生更新,尤其是一個業務數據可能在極短的時間內發生多次更新,單線程實現的實時數據采集系統能夠確保先更新的業務數據實時值在流式數據中先于后更新的業務數據實時值,但是單線程實現的低性能在絕大多數情況下無法滿足海量實時數據的處理需求。而分布式實現的實時數據采集系統則可能出現在其生成的分布式流式數據中,業務數據實時值的先后順序與更新發生的先后順序不同的情形。現有技術中,依照業務數據在流式數據中的先后順序對業務數據的實時值進行數據處理。這樣,當分布式流式數據中業務數據實時值的先后順序與更新發生的先后順序不同時,更新在先的實時值會覆蓋更新在后的實時值,導致數據處理的結果錯誤。
    技術實現思路
    有鑒于此,本申請提供一種分布式流式數據處理的方法,包括:獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。本申請還提供了一種分布式流式數據處理的裝置,包括:待處理信息獲取單元,用于獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;已處理信息獲取單元,用于根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;數據處理單元,用于比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。由以上技術方案可見,本申請的實施例中,在數據處理時保存數據記錄的已處理實時值時序特征,與流式數據中同一數據記錄的待處理實時值時序特征進行比較,只對時序晚于已處理實時值的待處理實時值進行業務運算,從而實現了按照數據更新的順序來進行數據處理,避免了因先處理更新在后的實時值導致的處理結果錯誤,提高了數據處理的準確度。附圖說明圖1是本申請實施例應用場景的一種網絡結構圖;圖2是本申請實施例中一種分布式流式數據處理的方法的流程圖;圖3是本申請實施例所在設備的一種硬件結構圖;圖4是本申請實施例中一種分布式流式數據處理的裝置的邏輯結構圖。具體實施方式本申請的實施例提出一種新的分布式流式數據處理的方法,在流式數據中攜帶數據記錄的待處理實時值時序特征,保存已進行數據處理的數據記錄的已處理實時值時序特征,通過比較待處理和已處理的實時值時序特征來得知待處理和已處理實時值的相對時序,并且在待處理實時值的時序較晚時才對其進行數據處理,從而能夠避免后處理時序較早的實時值導致的數據處理結果錯誤,以解決現有技術中存在的問題。本申請實施例應用場景的一種網絡結構如圖1所示:各個業務系統在業務運行過程中產生和刷新的業務數據存放在若干個不同類型(如MySQL、Oracle、HBase等)的業務數據庫中。當業務數據庫中新增或更新了滿足預定條件的業務數據時,數據采集平臺根據新增或更新的業務數據生成數據記錄,將不斷生成的數據記錄組合為流式數據,提供給實時計算平臺;數據采集平臺可以采用消息中間件(如kafka、TimeTunel等)實現,將生成的數據記錄承載在消息中寫入消息隊列供實時計算平臺讀取。實時計算平臺可以采用分布式計算(如Jstorm、storm等),也可以采用集中式計算,圖1中為采用分布式計算時的一種架構,由一個到多個數據分配器(如storm平臺的spout)將流式數據中的數據記錄分發到至少兩個數據處理器(如storm平臺的bolt)中,由數據處理器將業務數據的實時變化反映在處理結果中。可見,圖1中,當數據采集平臺采用多線程并行采集、和/或實時計算平臺采用分布式計算時,同一個業務數據連續更新時,攜帶有先更新業務數據實時值的數據記錄可能晚于攜帶有后更新業務數據實時值的數據記錄到達實時計算平臺的數據處理器。本申請的實施例運行在實時計算平臺上(采用分布式計算時運行在每個數據處理器上),能夠避免發生上述情形時后更新業務數據的處理結果被先更新業務數據的處理結果覆蓋的錯誤。本申請的實施例可以應用在任何具有計算和存儲能力的設備上,例如可以是手機、平板電腦、PC(PersonalComputer,個人電腦)、筆記本、服務器、虛擬機等物理設備或邏輯設備;也可以由兩個或兩個以上分擔不同職責的物理或邏輯設備、相互協同來實現本申請實施例中的各項功能。本申請的實施例中,分布式流式數據處理的方法的流程如圖2所示。步驟210,獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征。本申請的實施例中,數據記錄是流式數據的最小組成單位,每條數據記錄根據業務數據庫中發生變化(新增或更新)一個業務數據(如賬戶金額)、或同時發生變化的一組(兩個或兩個以上)業務數據(如轉賬次數、轉出總額)生成,數據記錄中包括該業務數據或該組業務數據的標識信息和該業務數據或該組業務數據的實時值,通常還包括實時值在業務數據庫中的生成時間。其中,標識信息唯一代表該業務數據或該組業務數據,即在本申請實施例的運行范圍內,該標識信息與該業務數據或該組業務數據一一對應;例如,本申請實施例運行在實時計算平臺的每個數據處理器上,則對每個數據處理器所處理的數據記錄而言,標識信息與某個業務數據或某組業務數據一一對應。可以參考實際應用場景中業務數據庫的字段及表的標識、和/或業務數據在業務系統中的標識等,來確定業務數據的標識信息,例如,可以將業務數據所在表的主鍵、表名、數據庫名組合后作為業務數據的標識信息;再如,可以將業務數據所屬業務的主業務主鍵標識、次業務主鍵標識和應用特征碼來作為業務數據的標識信息。業務數據的實時值是本次該業務數據或該組業務數據發生變化后的值。實時值的生成時間是業務數據在業務數據庫中發生變化的時間。實時值時序特征包括與本次該業務數據或該組業務數據發生變化時的時間相關聯的信息。當該業務數據或該組業務數據發生N次變化時,會生成N個數據記錄,這N個數據記錄中業務數據的標識信息相同本文檔來自技高網...
    分布式流式數據處理的方法和裝置

    【技術保護點】
    一種分布式流式數據處理的方法,其特征在于,包括:獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。

    【技術特征摘要】
    1.一種分布式流式數據處理的方法,其特征在于,包括:獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。2.根據權利要求1所述的方法,其特征在于,所述實時值時序特征包括:實時值的生成時間。3.根據權利要求1所述的方法,其特征在于,所述流式數據包括:由攜帶有數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征的消息構成的消息流;所述實時值時序特征包括:實時值的生成時間和實時值所在消息的消息標識;所述消息標識能夠反映消息生成的時序;所述待處理實時值的時序晚于已處理實時值的時序,包括:待處理實時值的生成時間晚于已處理實時值的生成時間,以及待處理和已處理實時值的生成時間相同并且待處理實時值所在消息的消息標識反映的時序晚于已處理實時值所在消息的消息標識反映的時序。4.根據權利要求1所述的方法,其特征在于,所述方法還包括:在尚未存儲所述業務數據的已處理實時值時序特征時,采用所述業務數據的待處理實時值進行業務運算、并將所述業務數據的待處理實時值時序特征作為已處理實時值時序特征,保存所述業務數據的標識信息與已處理實時值時序特征的對應關系。5.根據權利要求1所述的方法,其特征在于,所述分布式流式數據處理的方法并行獨立運行在至少兩個軟件功能模塊上,處理某一條數據記錄的軟件功能模塊根據所述數據記錄的部分或全部業務數據標識信息確定。6.根據權利要求1或5所述的方法,其特征在于,所述標識信息包括:標識特征、和至少一個標識字段,所有標識字段的組合唯一代表一個或一組業務數據,所述標識特征根據所有標識字段組合的預定部分生成。7.根據權利要求6所述的方法,其特征在于,所述標識字段包括:主業務主鍵標識和應用特征碼;所述標識特征為主業務主鍵標識的摘要值的前若干位。8.一種分布式流式數據處理的裝置,其特征在于,包括:...

    【專利技術屬性】
    技術研發人員:馮成林羅亮
    申請(專利權)人:阿里巴巴集團控股有限公司
    類型:發明
    國別省市:開曼群島,KY

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码免费专区网站| 一本加勒比hezyo无码专区| 无码人妻精品一区二区三区久久| 无码一区二区三区在线观看| 无码亚洲成a人在线观看| 成人无码a级毛片免费| 人妻中文字系列无码专区| 无码人妻精品一区二| 97精品人妻系列无码人妻| 亚洲中文字幕久久精品无码APP | 亚洲无码精品浪潮| 无码无遮挡又大又爽又黄的视频 | 亚洲精品久久无码| 国产成A人亚洲精V品无码性色| 无码专区人妻系列日韩精品少妇| 亚洲最大av无码网址| 亚洲AV无码AV男人的天堂不卡| 久久亚洲精品AB无码播放| 无码专区一va亚洲v专区在线 | 亚洲AV无码乱码在线观看裸奔| 国产精品爆乳奶水无码视频| 蜜桃成人无码区免费视频网站| 亚洲中文字幕无码中文字在线| 亚洲av无码专区在线电影天堂 | 无码日韩人妻精品久久蜜桃| 亚洲熟妇无码AV在线播放| 五月婷婷无码观看| 亚洲&#228;v永久无码精品天堂久久 | 无码国产成人午夜电影在线观看| 亚洲精品无码永久在线观看男男| 亚洲AV无码一区二区二三区入口 | 亚洲∧v久久久无码精品| 国产精品亚洲а∨无码播放| 在线观看免费无码专区| 中文字幕人妻无码系列第三区| 亚洲中文字幕无码久久精品1| 免费无码作爱视频| 无码精品一区二区三区在线| 小SAO货水好多真紧H无码视频 | 伊人蕉久中文字幕无码专区| 亚洲人成国产精品无码|