• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數據回填中處理異常數據的方法和裝置制造方法及圖紙

    技術編號:24251440 閱讀:36 留言:0更新日期:2020-05-22 23:31
    本發明專利技術公開了一種數據回填中處理異常數據的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息;基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序;其中,所述血緣關系數據至少用于表述數據之間的關聯關系;根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流。該方法在數據回填的場景中,基于數據與任務之間的血緣關系,自動化處理異常數據問題,無需人為干預,大大提高了處理效率和降低人工成本。

    A method and device for dealing with abnormal data in data backfilling

    【技術實現步驟摘要】
    一種數據回填中處理異常數據的方法和裝置
    本專利技術涉及計算機
    ,尤其涉及一種數據回填中處理異常數據的方法和裝置。
    技術介紹
    Airflow是一個可編程,調度和監控的工作流平臺,基于有向無環圖dag,airflow可以定義一組有依賴的任務,按照依賴依次執行。airflow提供了豐富的命令行工具用于系統管控,而其web管理界面同樣也可以方便的管控調度任務,并且對任務運行狀態進行實時監控,方便了系統的運維和管理。不同于其它調度器使用XML或者text文件方式定義工作流,airflow通過python文件作流,用戶可以通過代碼完全自定義自己的工作流。airflow的主要功能:工作流定義、任務調度、任務依賴、變量、池、分布式執行任務等。Backfill功能是airflow可以根據時間段對dag中的多個任務根據依賴關系進行數據回填。Clear功能是airflow可以根據時間段清除一些任務的狀態,使得可對dag中的某個任務進行重運行。Aiflow作為任務調度系統無法知曉數據的采集的異常情況,只能等數據開發工程師發現異常情況之后自主編寫腳本觸發backfill和clear功能才能重新運行數據。從發現問題到解決問題耗時。以及,Backfill以及Clear功能的作用范圍都在一個dag范圍內,無法根據依賴關系進行跨dag的任務重運行。在實際的數據采集場景下,一旦數據出現異常,數據回填的場景下,需要依賴數據開發人員的經驗進行人工編譯腳本處理,浪費人力資源,完全可以根據元數據獲取數據的血緣關系來進行自動化。
    技術實現思路
    有鑒于此,本專利技術實施例提供一種數據回填中處理異常數據的方法和裝置,能夠在數據回填的場景中,自動化處理異常數據問題,無需人為干預,大大提高了處理效率和降低人工成本。為實現上述目的,根據本專利技術實施例的一個方面,提供了一種數據回填中處理異常數據的方法。本專利技術實施例的數據回填中處理異常數據的方法包括:在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息;基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序;其中,所述血緣關系數據至少用于表述數據之間的關聯關系;根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流。可選地,在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息之前,還包括:對存儲在分布式文件系統中的原始數據進行解析,得到所述原始數據的時間字段信息;判斷所述原始數據的時間字段信息是否符合正常范圍條件;在所述原始數據的時間字段信息不符合正常范圍條件時,確定所述原始數據中存在異常數據。可選地,基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序的步驟包括:根據所述原始數據的時間字段信息,將所述歷史數據回洗到相應的時間分區表中,以及根據所述異常數據的時間字段信息,確定所述異常數據的時間分區表的目標表名;其中,所述元數據至少包括表名;基于存儲的血緣關系數據,根據所述異常數據的目標表名,確定目標任務流以及所述目標任務流的執行順序。可選地,所述時間分區表為hive表;和/或,在根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流之后,還包括:將所述hive表中的數據更新至對應的數據庫。可選地,在根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流之后,還包括:確定所述目標任務流中不存在未執行成功的任務,判斷是否存在后續延遲數據;如果存在,則確認存在異常數據的情況。可選地,還包括:確定所述異常數據為重復數據;對所述重復數據進行過濾。為實現上述目的,根據本專利技術實施例的另一個方面,提供了一種數據回填中處理異常數據的裝置。本專利技術實施例的數據回填中處理異常數據的裝置包括:元數據確定模塊,用于在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息;任務流確定模塊,用于基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序;其中,所述血緣關系數據至少用于表述數據之間的關聯關系;執行模塊,用于根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流。可選地,還包括異常檢測模塊,用于對存儲在分布式文件系統中的原始數據進行解析,得到所述原始數據的時間字段信息;判斷所述原始數據的時間字段信息是否符合正常范圍條件;在所述原始數據的時間字段信息不符合正常范圍條件時,確定所述原始數據中存在異常數據。可選地,所述任務流確定模塊還用于,根據所述原始數據的時間字段信息,將所述歷史數據回洗到相應的時間分區表中,以及根據所述異常數據的時間字段信息,確定所述異常數據的時間分區表的目標表名;其中,所述元數據至少包括表名;基于存儲的血緣關系數據,根據所述異常數據的目標表名,確定目標任務流以及所述目標任務流的執行順序。可選地,還包括執行結果確定模塊,用于確定所述目標任務流中不存在未執行成功的任務,判斷是否存在后續延遲數據;如果存在,則確認存在異常數據的情況。可選地,還包括重復異常處理模塊,用于確定所述異常數據為重復數據;對所述重復數據進行過濾。為實現上述目的,根據本專利技術實施例的再一個方面,提供了一種電子設備。本專利技術實施例的電子設備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現上述任一項的數據回填中處理異常數據的方法。為實現上述目的,根據本專利技術實施例的再一個方面,提供了一種計算機可讀介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現上述任一項的數據回填中處理異常數據的方法。上述專利技術中的一個實施例具有如下優點或有益效果:在數據回填的場景中,基于數據與任務之間的血緣關系,確定出任務流的執行順序并跟蹤任務的運行狀態,自動化處理異常數據問題,無需人為干預,大大提高了處理效率和降低人工成本。上述的非慣用的可選方式所具有的進一步效果將在下文中結合具體實施方式加以說明。附圖說明附圖用于更好地理解本專利技術,不構成對本專利技術的不當限定。其中:圖1是根據本專利技術實施例的數據回填中處理異常數據的方法的主要流程的示意圖;圖2是根據本專利技術實施例的數據回填中處理異常數據的方法的示意圖;圖3是根據本專利技術實施例的數據回填中處理異常數據的裝置的主要模塊的示意圖;圖4是本專利技術實施例可以應用于其中的示例性系統架構圖;圖5是適于用來實現本專利技術實施例的終端設備或服務器的計算機系統的結構示意圖。具體實施方式以下結合附圖對本專利技術的示范性實施例做出說明,其中包括本專利技術實施例的各種細節以助于理解,應當將它們認為僅僅是示范性的。因此,本領域普通技術人員應當認識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本專利技術的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結構的描述。圖1是根據本專利技術實本文檔來自技高網...

    【技術保護點】
    1.一種數據回填中處理異常數據的方法,其特征在于,包括:/n在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息;/n基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序;其中,所述血緣關系數據至少用于表述數據之間的關聯關系;/n根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流。/n

    【技術特征摘要】
    1.一種數據回填中處理異常數據的方法,其特征在于,包括:
    在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息;
    基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序;其中,所述血緣關系數據至少用于表述數據之間的關聯關系;
    根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流。


    2.根據權利要求1所述的方法,其特征在于,在存在異常數據的情況下,確定所述異常數據的元數據和時間字段信息之前,還包括:
    對存儲在分布式文件系統中的原始數據進行解析,得到所述原始數據的時間字段信息;
    判斷所述原始數據的時間字段信息是否符合正常范圍條件;在所述原始數據的時間字段信息不符合正常范圍條件時,確定所述原始數據中存在異常數據。


    3.根據權利要求2所述的方法,其特征在于,基于存儲的血緣關系數據,根據所述異常數據的元數據,確定目標任務流以及所述目標任務流的執行順序的步驟包括:
    根據所述原始數據的時間字段信息,將所述歷史數據回洗到相應的時間分區表中,以及根據所述異常數據的時間字段信息,確定所述異常數據的時間分區表的目標表名;其中,所述元數據至少包括表名;
    基于存儲的血緣關系數據,根據所述異常數據的目標表名,確定目標任務流以及所述目標任務流的執行順序。


    4.根據權利要求3所述的方法,其特征在于,所述時間分區表為hive表;和/或,
    在根據所述執行順序和所述異常數據的時間字段信息,執行所述目標任務流之后,還包括:將所述hive表中的數據更新至對應的數據庫。


    5.一種數據回填中處理異常數據的裝置,其特征在于,包括:
    元數據確定模塊,用于在存在異常數據的情況下,確定...

    【專利技術屬性】
    技術研發人員:陳琪瑤
    申請(專利權)人:蘇州思必馳信息科技有限公司
    類型:發明
    國別省市:江蘇;32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 在线精品自拍无码| 午夜麻豆国产精品无码| 国产精品亚洲专区无码WEB| 无码人妻精品一区二区蜜桃百度| a级毛片免费全部播放无码| 精品国产V无码大片在线看| 国产无码网页在线观看| 亚洲精品偷拍无码不卡av| 无码色AV一二区在线播放| 午夜福利无码不卡在线观看| 18禁超污无遮挡无码免费网站国产 | 无码乱肉视频免费大全合集| 少妇无码太爽了不卡视频在线看| 亚洲av无码精品网站| 免费播放美女一级毛片 | 亚洲av永久无码精品秋霞电影影院 | 亚洲精品无码MV在线观看| 无码专区永久免费AV网站| 久久水蜜桃亚洲av无码精品麻豆 | 亚洲av永久无码精品网站| 亚洲午夜无码片在线观看影院猛| 亚洲午夜无码久久| 精品深夜AV无码一区二区老年| 亚洲精品色午夜无码专区日韩| 亚洲国产91精品无码专区| 国产午夜无码视频免费网站| 国产精品无码专区在线播放| 亚洲av成人中文无码专区| 亚洲精品久久久久无码AV片软件| 亚洲精品偷拍无码不卡av| 无码人妻精品一区二区三区东京热| 国产成人AV无码精品| 无码AV一区二区三区无码| 国产久热精品无码激情| 亚洲成a∧人片在线观看无码| 午夜麻豆国产精品无码 | 无码欧精品亚洲日韩一区夜夜嗨| 国产精品亚洲专区无码牛牛| 在线观看无码的免费网站| 无码精品不卡一区二区三区| 欧洲精品无码成人久久久|