The invention discloses a method and a device for detecting faults, belonging to the technical field of database. The method includes: the number of abnormal IO events recorded on each node statistics distributed storage system n nodes, n is an integer greater than 1; according to the number of abnormal IO events recorded on the statistics of each node, the node for each node in the transceiver to vote, the receiving of response include: node request node data request and response data request; then, according to the number of votes each node obtained from n nodes selected at least one node as the fault node. The invention solves the problem that the process of detecting faults is complicated and the detection efficiency is low, and simplifies the process of detecting faults and improves the detection efficiency, and is used for fault detection.
【技術實現步驟摘要】
故障檢測方法及裝置
本專利技術涉及數據庫
,特別涉及一種故障檢測方法及裝置。
技術介紹
分布式存儲系統包括三種類型的節點(節點指的是一臺運行有用戶業務進程的物理服務器或虛擬服務器):元數據節點、計算節點和存儲節點。其中,元數據節點用于保存用戶業務的管理數據,存儲節點用于保存用戶業務的業務數據,計算節點用于向用戶提供接口以訪問存儲節點中保存的業務數據。這三種類型的節點作為一個整體來處理用戶業務。當某一節點出現故障時,可能會導致被處理的用戶業務受損,但并不會導致該用戶業務中斷(即用戶業務處于亞健康狀態),在這種情況下,也需要及時進行故障檢測,確定故障節點(即出現故障的節點),并采取相應的措施以便繼續處理該用戶業務。現有技術中,當被處理的用戶業務受損時,通常是先確定該用戶業務對應的接口,再確定該接口對應的計算節點,然后檢測該計算節點是否出現故障,當該計算節點出現故障時,進行故障恢復,當該計算節點未出現故障時,檢測保存業務數據的存儲主節點(為了防止業務數據丟失,同一業務數據被同時保存在存儲主節點和存儲備節點上)是否出現故障,當該存儲主節點出現故障時,進行故障恢復,當該存儲主節點未出現故障時,檢測保存該業務數據的存儲備節點是否出現故障,當該存儲備節點出現故障時,進行故障恢復。此外,還可能需要對保存管理數據的元數據節點進行故障檢測。由于需要對較多節點進行故障檢測,所以檢測故障的過程較繁瑣,檢測效率較低。
技術實現思路
為了解決現有技術檢測故障的過程較繁瑣,檢測效率較低的問題,本專利技術提供了一種故障檢測方法及裝置。所述技術方案如下:第一方面,提供了一種故障檢測方法, ...
【技術保護點】
一種故障檢測方法,其特征在于,所述方法包括:統計分布式存儲系統的n個節點中每個節點上記錄的輸入輸出IO異常事件數量,所述n為大于1的整數,所述IO異常事件為IO操作超時所產生的事件;根據統計的每個節點上記錄的IO異常事件數量,為所述每個節點所屬的收發對中的節點投票,所述收發對包括:發起數據請求的請求節點和響應所述數據請求的響應節點;根據每個節點獲得的投票數量從所述n個節點中篩選出至少一個節點作為故障節點。
【技術特征摘要】
1.一種故障檢測方法,其特征在于,所述方法包括:統計分布式存儲系統的n個節點中每個節點上記錄的輸入輸出IO異常事件數量,所述n為大于1的整數,所述IO異常事件為IO操作超時所產生的事件;根據統計的每個節點上記錄的IO異常事件數量,為所述每個節點所屬的收發對中的節點投票,所述收發對包括:發起數據請求的請求節點和響應所述數據請求的響應節點;根據每個節點獲得的投票數量從所述n個節點中篩選出至少一個節點作為故障節點。2.根據權利要求1所述的方法,其特征在于,所述根據每個節點獲得的投票數量從所述n個節點中篩選出至少一個節點作為故障節點,包括:根據每個節點獲得的投票數量將所述n個節點降序排列;將排名前m位的節點確定為所述故障節點,所述m為大于等于1的整數。3.根據權利要求1或2所述的方法,其特征在于,在所述統計分布式存儲系統的n個節點中每個節點上記錄的輸入輸出IO異常事件數量之前,所述方法還包括:獲取第一節點與其余節點的交互時延,得到多個交互時延,所述第一節點為所述n個節點中的任一節點;確定目標交互時延的數量p,所述目標交互時延為與所述多個交互時延中的最小交互時延的差值大于預設差值的交互時延;在所述第一節點上記錄p個IO異常事件。4.根據權利要求1或2所述的方法,其特征在于,在所述統計分布式存儲系統的n個節點中每個節點上記錄的輸入輸出IO異常事件數量之前,所述方法還包括:獲取第一節點與其余節點的交互時延,得到多個交互時延,所述第一節點為所述n個節點中的任一節點;確定所述多個交互時延中大于預設時延閾值的交互時延的數量p;在所述第一節點上記錄p個IO異常事件。5.根據權利要求1所述的方法,其特征在于,所述根據統計的每個節點上記錄的IO異常事件數量,為所述每個節點所屬的收發對中的節點投票,包括:根據統計的第一節點上記錄的IO異常事件數量p,為所述第一節點所屬的p個收發對中每個收發對包括的第一節點和響應節點分別投票,所述第一節點為所述n個節點中的任一節點,所述第一節點用于發起數據請求,所述響應節點用于響應所述數據請求。6.根據權利要求1所述的方法,其特征在于,所述統計分布式存儲系統的n個節點中每個節點上記錄的輸入輸出IO異常事件數量,包括:檢測被處理的用戶業務是否出現異常;當所述用戶業務出現異常時,...
【專利技術屬性】
技術研發人員:廖東方,黃世準,
申請(專利權)人:華為技術有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。