• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種高召回率的日志異常檢測方法技術

    技術編號:29133027 閱讀:39 留言:0更新日期:2021-07-02 22:28
    本發明專利技術涉及一種高召回率的日志異常檢測方法,遍歷每一個已知日志模式,對每一個已知日志模式做相同的判斷,提取日志模式數量序列,在提取的統一的日志模式數量序列下,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,同時檢測單條日志異常、日志序列異常和不變量異常。與現有技術相比,本發明專利技術具有大幅度提升日志召回率和準確率,提高檢測結果可解釋性等優點。

    【技術實現步驟摘要】
    一種高召回率的日志異常檢測方法
    本專利技術涉及日志異常檢測
    ,尤其是涉及一種高召回率的日志異常檢測方法。
    技術介紹
    隨著軟件系統向大規模,復雜的分布式系統發展,這些系統經常遭受錯誤和漏洞的困擾。當發生系統故障(例如服務故障和服務中斷)時,多個服務可能會受到故障的影響,這可能會導致系統的重大損失。系統異常檢測技術旨在定位這些系統故障。這種技術在系統維護中起著至關重要的作用。對于工程師來說,及時準確地發現異常是必要的,以便及時查明原因。系統中有許多類型的數據可用于異常檢測和故障排除。在大多數大型系統中普遍可用的日志數據具有大量信息,并且包含關鍵系統狀態,事件和運行時消息的記錄。目前業界把日志異常分為以下三種類型:i.單條日志就能反映的異常,如“shutdown”日志;ii.不變量異常,又稱為數量關系異常,如一段時間內的connect相關的日志數量與endconnect相關的日志數量不相等;iii.序列異常,又稱為任務流異常,即多條日志序列反映出來的異常,例如程序中某個任務的某個部分發生了異常,導致這個部分不能正常執行,其它部分正常執行,表現在日志中就是在這個任務流日志數據中少了某些日志。現有的日志異常檢測方法一般分為三個部分:a.日志解析:算法較多,各有優劣,目的都是將非結構化的日志數據轉換為結構化的數據。單條日志可以粗略的分為三個部分,打印時間、其它信息(層級(INFO,WARNING等)等)、日志內容。日志解析算法的難點在于如何確定日志內容中的固定部分和變量部分,業界用的較多的是通過大量的歷史日志數據,通過聚類算法來自動提取日志模式。幾千萬行日志對應的日志模式數量可能在幾十到幾百不等。b.特征提取:日志解析之后就可以將原始日志數據(日志序列,單個元素是一條日志字符串)轉換為日志模式下標序列。一般是將從歷史數據中解析出來的全部日志模式保存為一個有序的列表,稱為總日志模式序列,然后依次將日志序列中的日志映射為其日志模式在日志模式序列中的下標,這樣就得到了日志模式下標序列。部分算法可能還需要做進一步的特征提取。c.日志分析:日志分析就是設計一種算法利用特征提取后的數據來分析日志的異常情況。現在業界出名的日志分析算法有Deeplog等。Deeplog等算法重點關注的都是日志異常中的序列異常,采用的方法也比較類似,即訓練一個神經網絡模型,以一定窗長的日志序列數據為輸入,預測輸入日志序列的下一個日志是什么(模型實際輸入為對應的日志模式下標序列,輸出為各個日志模式的出現概率組成的一維列表)。檢測邏輯是,如果真實的下一個日志對應的日志模式不在模型預測的Topk個中即視為發生了異常。然而現有的日志異常檢測方法存在以下不足:1、準確性和召回率低:大多數公司或者機構的系統都是并發的,且各個模塊的處理速度和是否會一起執行是不穩定的,導致打印的日志序列的順序并不能很好的反映系統的任務流。因此盡管采用了topk的方式來提高模型的泛化性能,通過一定長度的日志序列預測下一個日志的方式來分析日志異常的模型的準確性和召回率在實際運用中的準確性、召回率都不盡人意。2、可解釋性低:現有的很多日志分析算法,如DeepLog等類似一個黑盒,雖然可以判定異常,但是無法很好的給出異常的解釋,而異常解釋是在實際運維場景中十分關注的重點。3、無法增量學習:當系統更新之后,若要保證模型的準確性,需要重新訓練模型,無法自動實時迭代,這將會消耗大量時間。
    技術實現思路
    本專利技術的目的就是提供一種高召回率的日志異常檢測方法,以至少部分地解決上述現有技術存在的缺陷。本專利技術的目的可以通過以下技術方案來實現:一種高召回率的日志異常檢測方法,該方法遍歷每一個已知日志模式,對每一個已知日志模式做相同的判斷,提取日志模式數量序列,在提取的統一的日志模式數量序列下,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,同時檢測單條日志異常、日志序列異常和不變量異常。進一步地,該方法采用并行方式遍歷每一個已知日志模式。本專利技術方法對每一個已知日志模式做相同的判斷,提取日志模式數量序列的具體內容為:獲取指定時間窗口的日志序列,引入一個未知日志模式和異常日志模式,利用時間滑動窗口提取日志模式數量序列。引入一個未知日志模式和異常日志模式,利用時間滑動窗口提取日志模式數量序列的具體內容為:獲取指定時間窗口的日志序列,并對該指定時間窗口的日志序列進行訓練,通過訓練過程中保存的總日志模式序列和日志解析算法,將其轉換為日志模式數量序列,假設訓練過程中保存的總日志模式序列的大小為N,則日志模式數量序列的長度為N+2,將日志模式數量序列中前N個元素與總日志模式序列中的模式通過下標一一對應,將最后一個元素對應為未知模式,即未在訓練數據中出現的模式,將倒數第二個元素對應為異常日志模式。本專利技術方法基于單條日志異常、日志序列異常和不變量異常三者之間的關系,對單條日志異常進行檢測的具體內容為:創建并維持一個異常日志模式庫,將初始時的異常日志模式庫設定為空,在檢測時,若日志模式數量的倒數第二個元素不為0,反饋單條日志模式錯誤信號,并將對應的異常日志模式和對應的數量反映在檢測結果中;若日志模式數量的最后一個元素不為空,反饋模式新增的異常信號,并將對應的新增日志模式和數量反映在檢測結果中,再結合用戶核實反饋進行確定,若用戶核實反饋為檢測無誤,即新增的日志模式為異常日志模式,則將新增的日志模式更新至異常日志模式庫中,若用戶核實反饋為檢測錯誤,即新增的日志模式為引入的正常日志模式,則將新增的日志模式更新到總日志模式序列中。進一步地,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,采用同比環比的方式對日志序列異常進行檢測。具體地:遍歷每一個已知日志模式,對每一個已知日志模式執行相同的邏輯判斷,即設定時間窗口長度,當時間窗口大小設定完成后,將每日的時間進行多個數據點劃分;設置一個時間偏移量t,利用實際日志數量與歷史同時刻加同時刻左、右各t個時間窗口的數據比判斷日志序列異常。利用實際日志數量與歷史同時刻加同時刻左、右各t個時間窗口的數據比判斷日志序列異常的具體內容為:召回當前日志模式所在歷史數據中同時間窗口及偏移t個窗口的內的數量組成一個歷史日志數量序列,計算歷史日志數量序列的中位數作為其期望日志數量,隨后將歷史日志數量序列的每一個值減去這期望日志數量得到殘差序列后,利用核密度估計模型計算其日志數量的上、下閾值,當實際的日志數量超過上閾值或者低于下閾值時,執行異常告警。進一步地,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,采用新型不變量挖掘和分析算法對不變量異常進行檢測。具體地:1)將訓練日志序列通過時間滑動窗口切分為多個日志子序列,將每一個日志子序列轉換為日志模式數量序列,進而獲取日志模式數量矩陣,其中橫軸表示各個時間窗口,縱軸表示各個日志模式;2)假設總日志模式序列的大小為N,則潛在的二元不變量為N!/2*(N-本文檔來自技高網
    ...

    【技術保護點】
    1.一種高召回率的日志異常檢測方法,其特征在于,遍歷每一個已知日志模式,對每一個已知日志模式做相同的判斷,提取日志模式數量序列,在提取的統一的日志模式數量序列下,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,同時檢測單條日志異常、日志序列異常和不變量異常。/n

    【技術特征摘要】
    1.一種高召回率的日志異常檢測方法,其特征在于,遍歷每一個已知日志模式,對每一個已知日志模式做相同的判斷,提取日志模式數量序列,在提取的統一的日志模式數量序列下,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,同時檢測單條日志異常、日志序列異常和不變量異常。


    2.根據權利要求1所述的高召回率的日志異常檢測方法,其特征在于,采用并行方式遍歷每一個已知日志模式。


    3.根據權利要求1所述的高召回率的日志異常檢測方法,其特征在于,對每一個已知日志模式做相同的判斷,提取日志模式數量序列的具體內容為:
    獲取指定時間窗口的日志序列,引入一個未知日志模式和異常日志模式,利用時間滑動窗口提取日志模式數量序列。


    4.根據權利要求3所述的高召回率的日志異常檢測方法,其特征在于,引入一個未知日志模式和異常日志模式,利用時間滑動窗口提取日志模式數量序列的具體內容為:
    獲取指定時間窗口的日志序列,并對該指定時間窗口的日志序列進行訓練,通過訓練過程中保存的總日志模式序列和日志解析算法,將其轉換為日志模式數量序列,假設訓練過程中保存的總日志模式序列的大小為N,則日志模式數量序列的長度為N+2,將日志模式數量序列中前N個元素與總日志模式序列中的模式通過下標一一對應,將最后一個元素對應為未知模式,即未在訓練數據中出現的模式,將倒數第二個元素對應為異常日志模式。


    5.根據權利要求4所述的高召回率的日志異常檢測方法,其特征在于,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,對單條日志異常進行檢測的具體內容為:
    創建并維持一個異常日志模式庫,將初始時的異常日志模式庫設定為空,在檢測時,若日志模式數量的倒數第二個元素不為0,反饋單條日志模式錯誤信號,并將對應的異常日志模式和對應的數量反映在檢測結果中;若日志模式數量的最后一個元素不為空,反饋模式新增的異常信號,并將對應的新增日志模式和數量反映在檢測結果中,再結合用戶核實反饋進行確定,若用戶核實反饋為檢測無誤,即新增的日志模式為異常日志模式,則將新增的日志模式更新至異常日志模式庫中,若用戶核實反饋為檢測錯誤,即新增的日志模式為引入的正常日志模式,則將新增的日志模式更新到總日志模式序列中。


    6.根據權利要求4所述的高召回率的日志異常檢測方法,其特征在于,基于單條日志異常、日志序列異常和不變量異常三者之間的關系,采用同比環比的方式對日志序列異常進行檢測。


    7.根據權利要求6所述的高召回率的日志異常檢測方法,其特征在于,采用同比環比的方式對日志序列異常進行檢測的具體內容為...

    【專利技術屬性】
    技術研發人員:李虎曾毅峰路進鋒吳霄林
    申請(專利權)人:上海浦東發展銀行股份有限公司
    類型:發明
    國別省市:上海;31

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码一区二区三区网址| 久久午夜夜伦鲁鲁片无码免费| 久久亚洲AV成人无码| 无码人妻一区二区三区免费看| 精品无码综合一区二区三区 | 精品无码成人久久久久久| 精品一区二区无码AV| 中文无码精品A∨在线观看不卡| 亚洲乱亚洲乱少妇无码| 亚洲国产精品无码久久| 亚洲成AV人片在线播放无码| 亚洲人成网亚洲欧洲无码| 久久久久无码精品亚洲日韩 | 亚洲av永久无码精品漫画| 精品久久久无码中文字幕边打电话| 无码A级毛片免费视频内谢| 少妇无码太爽了在线播放| 精品无码久久久久久国产| 亚洲午夜成人精品无码色欲| 亚洲av无码精品网站| 高清无码视频直接看| 成人av片无码免费天天看| 国产成人无码精品一区在线观看| 东京热一精品无码AV| 亚洲欧洲av综合色无码| 亚洲AV色吊丝无码| 亚洲av无码片区一区二区三区| 亚洲av无码精品网站| 无码H肉动漫在线观看| 日韩av无码一区二区三区| 亚洲AV综合色区无码一区爱AV| 亚洲中文字幕久久精品无码喷水| 亚洲AV无码一区二三区| 亚洲人成人无码网www国产| 久久中文字幕无码专区| 国产成人麻豆亚洲综合无码精品| 国产99久久九九精品无码| 亚洲精品无码不卡在线播HE | 少妇伦子伦精品无码STYLES| 中文字幕丰满乱孑伦无码专区| 2014AV天堂无码一区|