【技術實現(xiàn)步驟摘要】
本申請涉及工業(yè)互聯(lián)網(wǎng)和工業(yè)智能化應用領域,尤其是涉及一種針對大規(guī)模分布式訓練的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法、系統(tǒng)、終端及存儲介質。
技術介紹
1、當前,隨著人工智能技術的快速發(fā)展,大規(guī)模分布式訓練成為提升模型性能和效率的重要手段。然而,現(xiàn)有的分布式訓練系統(tǒng)往往都存在著任務分配不均、資源利用效率低、訓練質量難以保證等問題。特別是在算力資源分散、異構性強的環(huán)境下,如何高效地調(diào)度和管理訓練任務、確保訓練質量和資源的最優(yōu)利用,成為了本領域內(nèi)技術人員所廣泛關注的問題。
2、具體分析現(xiàn)有的分布式訓練系統(tǒng)所遵循的任務調(diào)度方案可以獲知,其中較為典型的包括以下幾種:
3、其一,基于靜態(tài)分配的任務調(diào)度方案。此種方案通常根據(jù)預設的規(guī)則或策略,將訓練任務靜態(tài)地分配給各個節(jié)點。例如,依據(jù)節(jié)點的計算能力、網(wǎng)絡帶寬等硬件指標來分配訓練任務。然而,這種方案忽略了節(jié)點的實時狀態(tài)和動態(tài)變化,容易導致資源利用不均衡、任務執(zhí)行效率低下。
4、其二,基于輪詢的任務調(diào)度方案。此種方案按照固定的順序輪流將任務分配給各個節(jié)點。雖然這種方案的具體實現(xiàn)過程比較簡單,但它同樣沒有考慮到節(jié)點的實時狀態(tài)和動態(tài)變化,因此也無法實現(xiàn)資源的最優(yōu)利用。
5、其三,基于優(yōu)先級的任務調(diào)度方案。此種方案會根據(jù)任務的優(yōu)先級和節(jié)點的實時狀態(tài)來分配任務,優(yōu)先級高的任務會被優(yōu)先分配給性能較好的節(jié)點、以確保任務的及時完成。然而,此種方案仍然存在著一定的局限性,例如它可能無法充分利用所有節(jié)點的計算能力,尤其是在任務優(yōu)先級差異較大的情況下。
技術實現(xiàn)思路
1、為了實現(xiàn)大規(guī)模分布式訓練中訓練任務的動態(tài)分配、高效執(zhí)行及結果驗證,本申請?zhí)峁┝艘环N基于中心節(jié)點管理的分布式訓練任務調(diào)度方法、系統(tǒng)、終端及存儲介質。
2、第一方面,本申請?zhí)峁┝艘环N基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,采用如下所述的技術方案。
3、一種基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,面向不同節(jié)點類型的訓練節(jié)點,所述節(jié)點類型包含固定算力節(jié)點及閑置算力節(jié)點兩種,方法包括如下步驟:
4、依據(jù)所述節(jié)點類型逐一與對應的所述訓練節(jié)點完成身份認證流程,保持與所述訓練節(jié)點的通信連接;
5、依據(jù)訓練任務基礎信息向所述訓練節(jié)點廣播訓練任務執(zhí)行請求,在任務領取窗口期內(nèi)接收來自所述訓練節(jié)點的任務領取請求,所述任務領取請求由所述訓練節(jié)點依據(jù)所述訓練任務執(zhí)行請求及自身的算力負載狀態(tài)生成,從發(fā)送所述任務領取請求的全部所述訓練節(jié)點中選擇權重積分最高的一個所述訓練節(jié)點作為目標節(jié)點、將所述訓練任務基礎信息對應的訓練任務下發(fā)至所述目標節(jié)點;
6、接收來自任一所述訓練節(jié)點的訓練結果,每個所述訓練結果對應一項所述訓練任務,依據(jù)所述訓練結果的發(fā)送時間及所述訓練任務對應的所述訓練任務基礎信息生成本次所述訓練任務的獎懲積分,使用所述獎懲積分對當前所述訓練節(jié)點的權重積分進行調(diào)整更新。
7、通過采用上述技術方案,將固定算力節(jié)點與閑置算力節(jié)點共同作為訓練節(jié)點、納入分布式訓練網(wǎng)絡中,在訓練節(jié)點的認證過程中,不同的節(jié)點類型采用不同的認證方式,最大化地保護了所有參與訓練的訓練節(jié)點的權益,鼓勵了個人閑置算力積極參與訓練,極大地提高了整體的資源利用率。
8、同時利用智能化的任務調(diào)度及靈活的積分獎懲規(guī)則,實現(xiàn)了對于訓練任務的有效分配和高效執(zhí)行,充分調(diào)動了各訓練節(jié)點參與訓練的積極性。
9、優(yōu)選地,所述依據(jù)所述訓練節(jié)點的類型逐一與所述訓練節(jié)點完成身份認證流程,包括如下步驟:
10、當所述訓練節(jié)點為所述固定算力節(jié)點時,
11、接收來自所述訓練節(jié)點的第一身份認證請求,所述第一身份認證請求包含第一請求包頭及第一請求簽名,所述第一請求包頭中包含訪問密鑰及第一簽名值,所述第一請求簽名中包含利用與所述訪問密鑰相匹配的機密密鑰處理后得到的第一簽名內(nèi)容,所述訪問密鑰與所述機密密鑰二者匹配對應且二者均存儲于第一密鑰庫中;
12、依據(jù)所述訪問密鑰于所述第一密鑰庫中查找對應的所述機密密鑰,結合查找結果及預設的第一簽名驗證規(guī)則計算所述第一請求簽名的簽名值,將計算結果與所述第一請求包頭中所包含的所述第一簽名值進行一致性對比,若對比結果一致,則認定當前所述訓練節(jié)點身份認證成功,使用預設的加密傳輸通道與當前所述訓練節(jié)點建立通信連接。
13、通過采用上述技術方案,基于ak/sk方案實現(xiàn)了對于固定算力節(jié)點的身份認證,實現(xiàn)了分布式訓練過程中跨域訓練節(jié)點的靈活參與,且有效地保證了通過公網(wǎng)訪問時的數(shù)據(jù)傳輸安全性。
14、優(yōu)選地,所述依據(jù)所述訓練節(jié)點的類型逐一與所述訓練節(jié)點完成身份認證流程,包括如下步驟:
15、當所述訓練節(jié)點為所述閑置算力節(jié)點時,
16、接收來自所述訓練節(jié)點的第二身份認證請求,所述第二身份認證請求包含第二請求包頭及第二請求簽名,所述第二請求包頭包含公共密鑰及第二簽名值,所述第二請求簽名中包含利用與所述公共密鑰相匹配的私有密鑰處理后得到的第二簽名內(nèi)容,所述公共密鑰與所述私有密鑰二者匹配對應且二者均由當前所述訓練節(jié)點線下生成并保存于本地,由所述訓練節(jié)點提交注冊的所述公共密鑰存儲于第二密鑰庫中;
17、確認所述公共密鑰是否存在于所述第二密鑰庫中,若存在,則結合所述公共密鑰及預設的第二名驗證規(guī)則計算所述第二請求簽名的簽名值,將計算結果與所述第二請求包頭中所包含的所述第二簽名值進行一致性對比,若對比結果一致,則認定當前所述訓練節(jié)點身份認證成功,與當前所述訓練節(jié)點建立通信連接。
18、通過采用上述技術方案,基于公私鑰方案實現(xiàn)了對于固定算力節(jié)點的身份認證,由于公私鑰方案采用非對稱加密方式,因此即使公共密鑰被泄露,也不會影響私有密鑰的安全性,實現(xiàn)了安全的網(wǎng)絡通信及數(shù)據(jù)傳輸。
19、優(yōu)選地,所述依據(jù)訓練任務基礎信息向所述訓練節(jié)點廣播訓練任務執(zhí)行請求,在任務領取窗口期內(nèi)接收來自所述訓練節(jié)點的任務領取請求,包括如下步驟:
20、依據(jù)當前訓練任務的訓練任務基礎信息生成對應的訓練任務執(zhí)行請求,所述訓練任務基礎信息包括任務算法類型、任務數(shù)據(jù)量、任務優(yōu)先級以及任務截止時間,向所述訓練節(jié)點廣播所述訓練任務執(zhí)行請求;
21、在任務領取窗口期內(nèi)接收來自所述訓練節(jié)點的任務領取請求,所述任務窗口期與所述任務截止時間相匹配,所述任務領取請求由所述訓練節(jié)點依據(jù)自身的算力負載狀態(tài)生成且與所述訓練任務執(zhí)行請求相對應。
22、通過采用上述技術方案,使得整個訓練任務的發(fā)布面向全部訓練節(jié)點,保證了分布式訓練網(wǎng)絡中每個獨立訓練節(jié)點的有效參與。訓練節(jié)點需要綜合評估后才會響應訓本文檔來自技高網(wǎng)...
【技術保護點】
1.一種基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,面向不同節(jié)點類型的訓練節(jié)點,所述節(jié)點類型包含固定算力節(jié)點及閑置算力節(jié)點兩種,方法包括如下步驟:
2.根據(jù)權利要求1所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述依據(jù)所述訓練節(jié)點的類型逐一與所述訓練節(jié)點完成身份認證流程,包括如下步驟:
3.根據(jù)權利要求1所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述依據(jù)所述訓練節(jié)點的類型逐一與所述訓練節(jié)點完成身份認證流程,包括如下步驟:
4.根據(jù)權利要求1所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述依據(jù)訓練任務基礎信息向所述訓練節(jié)點廣播訓練任務執(zhí)行請求,在任務領取窗口期內(nèi)接收來自所述訓練節(jié)點的任務領取請求,包括如下步驟:
5.根據(jù)權利要求4所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述從發(fā)送所述任務領取請求的全部所述訓練節(jié)點中選擇權重積分最高的一個所述訓練節(jié)點作為目標節(jié)點、將所述訓練任務基礎信息對應的訓練任務下發(fā)至所述目標節(jié)點,包括如下步驟:
6.根據(jù)權利
7.根據(jù)權利要求6所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述接收來自任一所述訓練節(jié)點的訓練結果,每個所述訓練結果對應一項所述訓練任務,依據(jù)所述訓練結果的發(fā)送時間及所述訓練任務對應的所述訓練任務基礎信息生成本次所述訓練任務的獎懲積分,使用所述獎懲積分對當前所述訓練節(jié)點的權重積分進行調(diào)整更新,還包括如下步驟:
8.一種基于中心節(jié)點管理的分布式訓練任務調(diào)度系統(tǒng),其特征在于,面向不同節(jié)點類型的訓練節(jié)點,所述節(jié)點類型包含固定算力節(jié)點及閑置算力節(jié)點兩種,系統(tǒng)包括如下模塊:
9.一種智能終端,其特征在于,包括存儲器和處理器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、至少一段程序、代碼集或指令集由所述處理器加載并執(zhí)行以實現(xiàn)如權利要求1至7中任一所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法。
10.一種計算機可讀存儲介質,其特征在于,所述可讀存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、至少一段程序、代碼集或指令集由處理器加載并執(zhí)行以實現(xiàn)如權利要求1至7中任一所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法。
...【技術特征摘要】
1.一種基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,面向不同節(jié)點類型的訓練節(jié)點,所述節(jié)點類型包含固定算力節(jié)點及閑置算力節(jié)點兩種,方法包括如下步驟:
2.根據(jù)權利要求1所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述依據(jù)所述訓練節(jié)點的類型逐一與所述訓練節(jié)點完成身份認證流程,包括如下步驟:
3.根據(jù)權利要求1所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述依據(jù)所述訓練節(jié)點的類型逐一與所述訓練節(jié)點完成身份認證流程,包括如下步驟:
4.根據(jù)權利要求1所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述依據(jù)訓練任務基礎信息向所述訓練節(jié)點廣播訓練任務執(zhí)行請求,在任務領取窗口期內(nèi)接收來自所述訓練節(jié)點的任務領取請求,包括如下步驟:
5.根據(jù)權利要求4所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述從發(fā)送所述任務領取請求的全部所述訓練節(jié)點中選擇權重積分最高的一個所述訓練節(jié)點作為目標節(jié)點、將所述訓練任務基礎信息對應的訓練任務下發(fā)至所述目標節(jié)點,包括如下步驟:
6.根據(jù)權利要求5所述的基于中心節(jié)點管理的分布式訓練任務調(diào)度方法,其特征在于,所述接收來自任一所述訓練節(jié)點的訓練結果,每個所述訓練結果對應一項所述訓練任務,依據(jù)所述訓練結果的發(fā)送時間及所述訓練任務...
【專利技術屬性】
技術研發(fā)人員:包繼華,石浩,楊訪明,孟剛,姜雪,
申請(專利權)人:山東科技大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。