The present invention provides a method of distributed data stream processing includes: acquiring streaming data in a data recording business data identification information to be processed in real time value and pending real-time values of temporal characteristics; the identification information is the only representative of one or a group of business data; according to business data identification information storage with the corresponding relationship between the processed real-time values of temporal features, has acquired the business data processing of the real-time value of temporal characteristics; comparing the business data to be processed and processed real-time values of timing characteristics, when the timing has real value later than the value of real-time processing timing, the real-time value of pending business operation and store the real-time value for processing real-time update sequence feature value timing characteristics. Through the technical scheme of the application, the data according to the update sequence data processing, avoid the first update in real-time value after treatment results in error, improve the accuracy of data processing.
【技術實現步驟摘要】
分布式流式數據處理的方法和裝置
本申請涉及數據處理
,尤其涉及一種分布式流式數據處理的方法和裝置。
技術介紹
隨著各種網絡應用日漸深入人們的日常生活,很多應用系統每天會產生數以TB(Terabyte,百萬兆字節)級計的業務數據。對這些海量數據的實時分析能夠提供對應用系統極有價值的信息,例如,對交通監管系統采集的海量視頻數據流的實時分析能夠為交通疏導提供幫助,對社交網站用戶訪問行為的實時分析能夠及時發現關注熱點并推送給更多的用戶。海量的實時業務數據通常保存在不同地點、不同軟硬件平臺、和/或不同類型的數據庫中,由實時數據采集系統將數據庫中實時變化的業務數據以流的方式源源不斷的收集起來,以進行實時數據處理。實時數據采集系統可以采用單線程實現;也可以采用分布式實現,由多個線程并發進行實時數據的采集。由于應用系統的業務數據隨時可能發生更新,尤其是一個業務數據可能在極短的時間內發生多次更新,單線程實現的實時數據采集系統能夠確保先更新的業務數據實時值在流式數據中先于后更新的業務數據實時值,但是單線程實現的低性能在絕大多數情況下無法滿足海量實時數據的處理需求。而分布式實現的實時數據采集系統則可能出現在其生成的分布式流式數據中,業務數據實時值的先后順序與更新發生的先后順序不同的情形。現有技術中,依照業務數據在流式數據中的先后順序對業務數據的實時值進行數據處理。這樣,當分布式流式數據中業務數據實時值的先后順序與更新發生的先后順序不同時,更新在先的實時值會覆蓋更新在后的實時值,導致數據處理的結果錯誤。
技術實現思路
有鑒于此,本申請提供一種分布式流式數據處理的方法,包括:獲取 ...
【技術保護點】
一種分布式流式數據處理的方法,其特征在于,包括:獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。
【技術特征摘要】
1.一種分布式流式數據處理的方法,其特征在于,包括:獲取流式數據中某一條數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征;所述標識信息唯一代表一個或一組業務數據;根據存儲的業務數據標識信息與已處理實時值時序特征的對應關系,獲取所述業務數據的已處理實時值時序特征;比較所述業務數據的待處理和已處理的實時值時序特征,當待處理實時值的時序晚于已處理實時值的時序時,采用待處理實時值進行業務運算并將存儲的所述已處理實時值時序特征更新為待處理實時值時序特征。2.根據權利要求1所述的方法,其特征在于,所述實時值時序特征包括:實時值的生成時間。3.根據權利要求1所述的方法,其特征在于,所述流式數據包括:由攜帶有數據記錄的業務數據標識信息、待處理實時值和待處理實時值時序特征的消息構成的消息流;所述實時值時序特征包括:實時值的生成時間和實時值所在消息的消息標識;所述消息標識能夠反映消息生成的時序;所述待處理實時值的時序晚于已處理實時值的時序,包括:待處理實時值的生成時間晚于已處理實時值的生成時間,以及待處理和已處理實時值的生成時間相同并且待處理實時值所在消息的消息標識反映的時序晚于已處理實時值所在消息的消息標識反映的時序。4.根據權利要求1所述的方法,其特征在于,所述方法還包括:在尚未存儲所述業務數據的已處理實時值時序特征時,采用所述業務數據的待處理實時值進行業務運算、并將所述業務數據的待處理實時值時序特征作為已處理實時值時序特征,保存所述業務數據的標識信息與已處理實時值時序特征的對應關系。5.根據權利要求1所述的方法,其特征在于,所述分布式流式數據處理的方法并行獨立運行在至少兩個軟件功能模塊上,處理某一條數據記錄的軟件功能模塊根據所述數據記錄的部分或全部業務數據標識信息確定。6.根據權利要求1或5所述的方法,其特征在于,所述標識信息包括:標識特征、和至少一個標識字段,所有標識字段的組合唯一代表一個或一組業務數據,所述標識特征根據所有標識字段組合的預定部分生成。7.根據權利要求6所述的方法,其特征在于,所述標識字段包括:主業務主鍵標識和應用特征碼;所述標識特征為主業務主鍵標識的摘要值的前若干位。8.一種分布式流式數據處理的裝置,其特征在于,包括:...
【專利技術屬性】
技術研發人員:馮成林,羅亮,
申請(專利權)人:阿里巴巴集團控股有限公司,
類型:發明
國別省市:開曼群島,KY
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。