本發(fā)明公開了一種機(jī)群容錯(cuò)系統(tǒng)、裝置及方法。該系統(tǒng)包括遠(yuǎn)程檢查點(diǎn)服務(wù)器,用于響應(yīng)來自故障結(jié)點(diǎn)的遠(yuǎn)程檢查點(diǎn)請(qǐng)求,執(zhí)行檢查點(diǎn)操作;結(jié)點(diǎn)故障檢測(cè)模塊,用于監(jiān)測(cè)本地結(jié)點(diǎn)的操作系統(tǒng)和指定進(jìn)程的運(yùn)行狀態(tài),觸發(fā)遠(yuǎn)程檢查點(diǎn);通信系統(tǒng)檢查點(diǎn)模塊,用于實(shí)現(xiàn)通...