本發(fā)明專利技術提供一種集群MIC作業(yè)的管理及調(diào)度方法,內(nèi)容包括:管理進程IM服務器、作業(yè)提交的命令imsub及參數(shù)-mics、MIC作業(yè)查看命令imjobs、計算節(jié)點查看命令imnodes。該方法通過管理進程(IM服務器)記錄集群中其他所有節(jié)點(計算節(jié)點)的MIC資源總數(shù)及使用情況。當作業(yè)在管理節(jié)點上提交時,以命令參數(shù)的形式指明所需的mic數(shù)。管理節(jié)點檢查集群中所有計算節(jié)點,找到有足夠mic資源的計算節(jié)點,并將作業(yè)發(fā)送至該節(jié)點進行計算。本方法克服了傳統(tǒng)集群資源管理及調(diào)度不支持MIC作業(yè)的問題,提出了一種集群MIC作業(yè)的管理及調(diào)度方法,使得集群MIC資源得到充分利用,有效提高MIC處理復雜作業(yè)的能力。
【技術實現(xiàn)步驟摘要】
本專利技術涉及計算機領域,具體的說是一種集群MIC作業(yè)的管理及調(diào)度方法。
技術介紹
英特爾集成眾核(MIC)跟通用的多核處理器相比,具有更小的內(nèi)核和硬件線程,計算資源密度更高,片上通信開銷顯著降低,具有更多的晶體管和能量,能夠勝任更為復雜的并行應用。但是當前主流的集群資源管理及調(diào)度系統(tǒng)還沒有添加對MIC作業(yè)的支持,此時存在以下兩個問題1) MIC作業(yè)提交至作業(yè)管理系統(tǒng),系統(tǒng)無法知道集群中哪些節(jié)點具有MIC資源,從而無法將作業(yè)調(diào)度至相應的MIC節(jié)點上。2) MIC作業(yè)提交至作業(yè)管理系統(tǒng)時,即使被調(diào)度至相應的MIC節(jié)點上,但是作業(yè)管理系統(tǒng)并不知道此時MIC卡上是否已有作業(yè)運行,一塊MIC卡上只能運行一個作業(yè),如果兩個或多個作業(yè)被調(diào)度到同一塊MIC卡上,會造成作業(yè)運行錯誤。
技術實現(xiàn)思路
本專利技術針對現(xiàn)有技術的不足,提供一種集群MIC作業(yè)的管理及調(diào)度方法。本專利技術是在高性能計算集群中,將英特爾MIC眾核處理器作為一種計算資源,對MIC資源進行管理及調(diào)度的方法,其解決所述技術問題的方法內(nèi)容包括管理進程IM服務器、作業(yè)提交的命令imsub及參數(shù)-mics、作業(yè)查看命令imjobs、計算節(jié)點查看命令imnodes ; 其中管理進程IM服務器,負責統(tǒng)計、保存集群中各個計算節(jié)點的MIC資源總數(shù)及使用情況;作業(yè)提交的命令imsub及參數(shù)-mics,可以使作業(yè)運行在指定的MIC卡上,作業(yè)提交的命令imsub,負責作業(yè)腳本提交,參數(shù)-mics,負責記錄作業(yè)腳本運行時所需的mic數(shù),例如使用imsub - mics 2 job. sh提交一個需要2個mic卡的作業(yè)job. sh ;作業(yè)查看命令imjobs,負責查看當前集群所有MIC作業(yè)的運行狀態(tài),且可以將JobQueue文件內(nèi)顯示出來,可查看集群中等待的MIC作業(yè)情況;計算節(jié)點查看命令imnodes,可以將NodeMicInfo文件內(nèi)容顯示出來,負責查看當前集群中計算節(jié)點MIC資源使用情況。本專利技術提供的MIC作業(yè)管理及調(diào)度方法,管理端進程對整個集群的MIC資源進行統(tǒng)計及監(jiān)控,可以保證新提交的MIC作業(yè)在合適的計算節(jié)點上運行。該方法的具體管理過程如下 通過一個管理進程頂服務器,利用ssh命令連接至集群中的各個計算節(jié)點,在各個計算節(jié)點運行micinfo監(jiān)控命令,獲取該計算節(jié)點的MIC總數(shù)目及已使用MIC卡序號,并將結果保存在NodeMicInfo文件中,當MIC作業(yè)通過isub命令提交時,以命令參數(shù)的形式指明所需的mic數(shù),頂服務器檢查NodeMicInfo文件,將作業(yè)調(diào)度到有足夠mic資源的空閑計算節(jié)點上進行計算,否則,將該作業(yè)提交命令(isub job. sh)保存在JobQueue中,當作業(yè)運行完成后,MIC資源得到釋放,IM服務器從JobQueue中取出作業(yè)再次調(diào)度執(zhí)行。具體調(diào)度過程如下作業(yè)通過isub job4. sh形式提交至管理進程IM服務器,IM服務器檢查NodeMicInfo文件查看是否有空閑MIC卡,其中,每個節(jié)點后面每個數(shù)字代表一個MIC卡,I為運行作業(yè),O為空閑,如果有,則將作業(yè)調(diào)度至該MIC卡上執(zhí)行,并修改該MIC信息由O變?yōu)镮 ;否則,將作業(yè)保存至等待隊列中,作業(yè)完成后,修改NodeMicInfo文件信息,將剛剛運行該作業(yè)的MIC卡信息由I變?yōu)?,表示該MIC已經(jīng)空閑,此時,集群中有MIC卡空閑,頂服務器檢查作業(yè)等待列表中是否有作業(yè)等待,如果有,則將等待的作業(yè)重新調(diào)度執(zhí)行。本專利技術一種集群MIC作業(yè)的管理及調(diào)度方法的有益效果是本方法克服了傳統(tǒng)集群資源管理及調(diào)度不支持MIC作業(yè)的問題,提出了一種將MIC眾核處理器作為計算資源,根據(jù)作業(yè)需求對MIC資源進行分配及調(diào)度的方法,使得集群MIC資源得到充分利用,并保證作業(yè)的正確運行,有效提高MIC處理復雜作業(yè)的能力。附圖說明 附圖I是集群MIC作業(yè)的管理及調(diào)度方法的系統(tǒng)流程圖。具體實施例方式下面結合附圖I對本專利技術一種集群MIC作業(yè)的管理及調(diào)度方法作進一步說明。本方法通過一個管理進程(頂服務器),對集群中的MIC資源信息及使用狀態(tài)進行統(tǒng)計并保存,以便新提交的MIC作業(yè)能夠分配至合適的MIC卡上運行;提供一個MIC作業(yè)提交命令imsub及參數(shù)-mics,可以使作業(yè)運行在指定的MIC卡上;提供一個MIC作業(yè)查看命令imjobs,可以查看當前集群所有MIC作業(yè)運行狀態(tài);提供一個計算節(jié)點查看命令imnodes,可以查看當前集群中所有計算節(jié)點上的MIC使用信息。本專利技術提供的MIC作業(yè)管理及調(diào)度方法,管理端進程對整個集群的MIC資源進行統(tǒng)計及監(jiān)控,可以保證新提交的MIC作業(yè)在合適的計算節(jié)點上運行。該方法的具體管理過程為 通過一個管理進程頂服務器,利用ssh命令連接至集群中的各個計算節(jié)點,在各個計算節(jié)點運行micinfo監(jiān)控命令,獲取該計算節(jié)點的MIC總數(shù)目及已使用MIC卡序號,并將結果保存在NodeMicInfo文件中,當MIC作業(yè)通過isub命令提交時,以命令參數(shù)的形式指明所需的mic數(shù),IM服務器檢查NodeMicInfo文件,將作業(yè)調(diào)度到有足夠mic資源的空閑計算節(jié)點上進行計算,否則,將該作業(yè)提交命令(isub job. sh)保存在JobQueue中,當作業(yè)運行完成后,MIC資源得到釋放,IM服務器從JobQueue中取出作業(yè)再次調(diào)度執(zhí)行。該方法的調(diào)度流程敘述如下 作業(yè)通過isub job4. sh形式提交至管理進程IM服務器,IM服務器檢查NodeMicInfo文件查看是否有空閑MIC卡(每個節(jié)點后面每個數(shù)字代表一個MIC卡,I為運行作業(yè),O為空閑),如果有,則將作業(yè)調(diào)度至該MIC卡上執(zhí)行,并修改該MIC信息(由O變?yōu)镮);否則,將作業(yè)保存至等待隊列中。作業(yè)完成后,修改NodeMicInfo文件信息,將剛剛運行該作業(yè)的MIC卡信息由I變?yōu)?,表示該MIC已經(jīng)空閑。此時,集群中有MIC卡空閑,頂服務器檢查作業(yè)等待列表中是否有作業(yè)等待,如果有,則將等待的作業(yè)重新調(diào)度執(zhí)行。除說明書所述的技術特征外,均為本專業(yè)技術人員的已知技術。本文檔來自技高網(wǎng)...
【技術保護點】
一種集群MIC作業(yè)的管理及調(diào)度方法,其特征在于在高性能計算集群中,將MIC眾核處理器作為一種計算資源,對MIC資源進行管理及調(diào)度,內(nèi)容包括:管理進程IM服務器、作業(yè)提交命令imsub及參數(shù)?mics、作業(yè)查看命令imjobs、計算節(jié)點查看命令imnodes;其中管理進程IM服務器,負責統(tǒng)計、保存集群中各個計算節(jié)點的MIC資源總數(shù)及使用情況,以便新提交的MIC作業(yè)能夠分配至合適的MIC卡上運行;作業(yè)提交的命令imsub及參數(shù)?mics,使作業(yè)運行在指定的MIC卡上,作業(yè)提交的命令imsub負責作業(yè)腳本提交,參數(shù)?mics負責記錄作業(yè)腳本運行時所需的mic數(shù);作業(yè)查看命令imjobs負責查看當前集群中MIC作業(yè)的運行狀態(tài),將JobQueue文件內(nèi)顯示出來,以此查看集群中等待的MIC作業(yè)情況;計算節(jié)點查看命令imnodes將NodeMicInfo文件內(nèi)容顯示出來,負責查看當前集群中計算節(jié)點MIC資源使用情況,具體管理過程如下:通過一個管理進程IM服務器,利用ssh命令連接至集群中的各個計算節(jié)點,在各個計算節(jié)點運行micinfo監(jiān)控命令,獲取該計算節(jié)點的MIC總數(shù)目及已使用MIC卡序號,并將結果保存在NodeMicInfo文件中,當MIC作業(yè)通過isub命令提交時,以命令參數(shù)的形式指明所需的mic數(shù),IM服務器檢查NodeMicInfo文件,將作業(yè)調(diào)度到有足夠mic資源的空閑節(jié)點上進行計算,否則,將該作業(yè)提交命令isub?job.sh保存在JobQueue中,當作業(yè)運行完成后,MIC資源得到釋放,IM服務器從JobQueue中取出作業(yè)再次調(diào)度執(zhí)行;具體調(diào)度過程如下:作業(yè)通過?isub?job4.sh形式提交至管理進程IM服務器,IM服務器檢查NodeMicInfo文件查看是否有空閑MIC卡,其中,每個節(jié)點后面每個數(shù)字代表一個MIC卡,1為運行作業(yè),0為空閑,如果有,則將作業(yè)調(diào)度至該MIC卡上執(zhí)行,并修改該MIC信息由0變?yōu)?;否則,將作業(yè)保存至等待隊列中,作業(yè)完成后,修改NodeMicInfo文件信息,將剛剛運行該作業(yè)的MIC卡信息由1變?yōu)?,表示該MIC已經(jīng)空閑,此時,集群中有MIC卡空閑,IM服務器檢查作業(yè)等待列表中是否有作業(yè)等待,如果有,則將等待的作業(yè)重新調(diào)度執(zhí)行。...
【技術特征摘要】
1.一種集群Mic作業(yè)的管理及調(diào)度方法,其特征在于在高性能計算集群中,將MIC眾核處理器作為一種計算資源,對MIC資源進行管理及調(diào)度,內(nèi)容包括管理進程IM服務器、作業(yè)提交命令imsub及參數(shù)-mics、作業(yè)查看命令imjobs、計算節(jié)點查看命令imnodes ; 其中管理進程IM服務器,負責統(tǒng)計、保存集群中各個計算節(jié)點的MIC資源總數(shù)及使用情況,以便新提交的MIC作業(yè)能夠分配至合適的MIC卡上運行;作業(yè)提交的命令imsub及參數(shù)-mics,使作業(yè)運行在指定的MIC卡上,作業(yè)提交的命令imsub負責作業(yè)腳本提交,參數(shù)-mics負責記錄作業(yè)腳本運行時所需的mic數(shù);作業(yè)查看命令imjobs負責查看當前集群中MIC作業(yè)的運行狀態(tài),將JobQueue文件內(nèi)顯示出來,以此查看集群中等待的MIC作業(yè)情況;計算節(jié)點查看命令imnodes將NodeMicInfo文件內(nèi)容顯示出來,負責查看當前集群中計算節(jié)點MIC資源使用情況,具體管理過程如下 通過一個管理進程頂服務器,利用ssh命令連接至集群中的各個計算節(jié)點,在各個計算節(jié)點運行micinfo監(jiān)控命令,獲取...
【專利技術屬性】
技術研發(fā)人員:張云,
申請(專利權)人:浪潮電子信息產(chǎn)業(yè)股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。