本發(fā)明專利技術(shù)涉及一種集群計(jì)算資源的分區(qū)調(diào)度管理方法,包括下述步驟:(1)作業(yè)被提交到調(diào)度資源管理系統(tǒng);(2)指定運(yùn)行的作業(yè)隊(duì)列;(3)判斷作業(yè)隊(duì)列所對應(yīng)分區(qū)的空閑程度及優(yōu)先順序,并選擇至少一個(gè)的分區(qū);(4)確定作業(yè)運(yùn)行所需的至少一個(gè)計(jì)算節(jié)點(diǎn);(5)將作業(yè)調(diào)度到選定的計(jì)算節(jié)點(diǎn)上。本發(fā)明專利技術(shù)提供的集群計(jì)算資源的分區(qū)調(diào)度管理方法,解決了Torque資源管理器中節(jié)點(diǎn)資源配置方式單一,不適用于大規(guī)模集群及復(fù)雜節(jié)點(diǎn)資源配置需求的問題。同時(shí)本發(fā)明專利技術(shù)在較大的集群規(guī)模、復(fù)雜配置情況下也同樣可以做到配置方便、動(dòng)態(tài)設(shè)置的要求,并且保證了對計(jì)算節(jié)點(diǎn)資源的合理利用。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及一種高性能計(jì)算集群的調(diào)度管理方法,具體涉及一種集群計(jì)算資源的分區(qū)調(diào)度管理方法。
技術(shù)介紹
隨著高性能計(jì)算集群在各高新領(lǐng)域的廣泛應(yīng)用,集群上的應(yīng)用呈現(xiàn)出處理過程復(fù)雜、應(yīng)用種類多樣的態(tài)勢,不同類型的應(yīng)用,或同一應(yīng)用使用不同的運(yùn)行方式都可能對計(jì)算資源有著不同的要求,因此如何通過作業(yè)調(diào)度系統(tǒng),對計(jì)算資源進(jìn)行合理分配,使作業(yè)能夠被調(diào)度到對應(yīng)的分區(qū)上,并做到對分區(qū)以及分區(qū)與隊(duì)列關(guān)系的動(dòng)態(tài)調(diào)整變成為了具有重要應(yīng)用價(jià)值的問題。Torque 5. O中提供的針對隊(duì)列的資源配置方法中,通過將單個(gè)計(jì)算節(jié)點(diǎn)與作業(yè)隊(duì)列進(jìn)行關(guān)聯(lián),來為隊(duì)列中的作業(yè)分配可使用的計(jì)算資源。節(jié)點(diǎn)與隊(duì)列的關(guān)聯(lián)的具體方式為,·修改關(guān)聯(lián)隊(duì)列的acl_h0sts屬性值為對應(yīng)的節(jié)點(diǎn)名稱。修改后,提交到該隊(duì)列中的作業(yè)將會(huì)使用并且只能使用acl_h0sts屬性中所指定的節(jié)點(diǎn)資源。現(xiàn)有技術(shù)存在以下問題Torque中所提供的這種節(jié)點(diǎn)資源配置方式基本可以解決不同類型作業(yè)對于計(jì)算資源的不同需求的問題。但是由于配置方式單一,導(dǎo)致易用性較差,尤其在集群規(guī)模較大、節(jié)點(diǎn)或隊(duì)列數(shù)目較多、資源配置策略復(fù)雜等情況下,使用該方法實(shí)現(xiàn)隊(duì)列與資源對應(yīng)配置的工作量將變的很大,甚至不具有可實(shí)施性。
技術(shù)實(shí)現(xiàn)思路
針對現(xiàn)有技術(shù)的不足,本專利技術(shù)提供一種集群計(jì)算資源的分區(qū)調(diào)度管理方法,該方法使用隊(duì)列分區(qū)配置工具“Qpar”和分區(qū)節(jié)點(diǎn)配置工具“Pnode”,使資源配置過程在較大的集群規(guī)模、復(fù)雜配置情況下同樣可以做到配置方便、動(dòng)態(tài)設(shè)置的要求,并且保證了對計(jì)算節(jié)點(diǎn)資源的合理利用,具有很強(qiáng)的可實(shí)施性。本專利技術(shù)的目的是采用下述技術(shù)方案實(shí)現(xiàn)的—種集群計(jì)算資源的分區(qū)調(diào)度管理方法,其改進(jìn)之處在于,所述方法包括下述步驟( I)作業(yè)被提交到調(diào)度資源管理系統(tǒng);(2)指定運(yùn)行的作業(yè)隊(duì)列;(3)判斷作業(yè)隊(duì)列所對應(yīng)分區(qū)的空閑程度及優(yōu)先順序(空閑程度當(dāng)前,分區(qū)內(nèi)計(jì)算資源的利用率。優(yōu)先順序每個(gè)分區(qū)內(nèi)對多個(gè)作業(yè)隊(duì)列設(shè)置不同的優(yōu)先級),并選擇至少一個(gè)的分區(qū);(4)確定作業(yè)運(yùn)行所需的至少一個(gè)計(jì)算節(jié)點(diǎn);(5)將作業(yè)調(diào)度到選定的計(jì)算節(jié)點(diǎn)上。其中,所述步驟(I)中,作業(yè)被提交到調(diào)度資源管理系統(tǒng)Torque資源管理器中。其中,所述步驟(2)中,通過Torque資源管理器指定運(yùn)行的作業(yè)隊(duì)列。其中,所述步驟(3)中,根據(jù)隊(duì)列分區(qū)配置工具Qpar的配置調(diào)度系統(tǒng)判斷作業(yè)隊(duì)列所對應(yīng)分區(qū)的空閑程度及優(yōu)先順序,并選擇至少一個(gè)的分區(qū)。其中,所述隊(duì)列分區(qū)配置工具Qpar是指用于配置、查看隊(duì)列與隊(duì)列分區(qū)表之間的對應(yīng)關(guān)系;所述隊(duì)列分區(qū)表中記錄了隊(duì)列與分區(qū)之間的對應(yīng)信息。其中,所述隊(duì)列分區(qū)配置工具Qpar包括以下命令A(yù)、顯示所有隊(duì)列及各隊(duì)列對應(yīng)的分區(qū);B、顯示指定隊(duì)列的分區(qū);C、添加新的隊(duì)列,添加的隊(duì)列為默認(rèn)設(shè)置;D、為指定隊(duì)列添加分區(qū); E、所述指定隊(duì)列使用調(diào)度資源管理系統(tǒng)中的所有分區(qū);F、刪除指定隊(duì)列;G、從隊(duì)列中刪除指定分區(qū);H、使隊(duì)列分區(qū)配置生效命令。其中,所述步驟(4)中,根據(jù)分區(qū)節(jié)點(diǎn)配置工具Pnode確定作業(yè)運(yùn)行所需的至少一個(gè)計(jì)算節(jié)點(diǎn)。其中,所述分區(qū)節(jié)點(diǎn)配置工具Pnode是指用于配置、查看分區(qū)與分區(qū)節(jié)點(diǎn)表之間的對應(yīng)關(guān)系;所述分區(qū)節(jié)點(diǎn)表記錄了分區(qū)與節(jié)點(diǎn)之間的對應(yīng)信息。其中,所述分區(qū)節(jié)點(diǎn)配置工具Pnode包括下述命令I(lǐng)、顯示所有分區(qū)及各分區(qū)對應(yīng)計(jì)算節(jié)點(diǎn);II、顯示指定分區(qū)的對應(yīng)節(jié)點(diǎn);III、添加新的分區(qū),添加的分區(qū)為空分區(qū);IV、為指定分區(qū)添加計(jì)算節(jié)點(diǎn);V、指定分區(qū)使用調(diào)度資源管理系統(tǒng)中的所有計(jì)算節(jié)點(diǎn);VI、刪除指定分區(qū);VII、從分區(qū)中刪除指定計(jì)算節(jié)點(diǎn);VIII、使分區(qū)節(jié)點(diǎn)配置生效。其中,所述步驟(5)中,Maui作業(yè)調(diào)度器將作業(yè)調(diào)度到選定的計(jì)算節(jié)點(diǎn)上。其中,一個(gè)隊(duì)列中包含至少一個(gè)分區(qū);同一個(gè)分區(qū)或同時(shí)屬于至少一個(gè)隊(duì)列所有;一個(gè)分區(qū)中包含至少一個(gè)計(jì)算節(jié)點(diǎn);同一個(gè)計(jì)算節(jié)點(diǎn)或?qū)儆谥辽僖粋€(gè)分區(qū);同一分區(qū)中所包含的計(jì)算節(jié)點(diǎn)不可重復(fù)。與現(xiàn)有技術(shù)比,本專利技術(shù)達(dá)到的有益效果是本專利技術(shù)提供的集群計(jì)算資源的分區(qū)調(diào)度管理方法,解決了 Torque資源管理器中節(jié)點(diǎn)資源配置方式單一,不適用于大規(guī)模集群及復(fù)雜節(jié)點(diǎn)資源配置需求的問題。同時(shí)本專利技術(shù)中所提供的隊(duì)列分區(qū)配置工具“Qpar”、分區(qū)節(jié)點(diǎn)配置工具“Pnode”使資源配置過程在較大的集群規(guī)模、復(fù)雜配置情況下也同樣可以做到配置方便、動(dòng)態(tài)設(shè)置的要求,并且保證了對計(jì)算節(jié)點(diǎn)資源的合理利用。附圖說明圖I是本專利技術(shù)提供的隊(duì)列、分區(qū)和計(jì)算節(jié)點(diǎn)資源配置圖2是本專利技術(shù)提供的集群計(jì)算資源的分區(qū)調(diào)度管理方法的流程圖。具體實(shí)施例方式下面結(jié)合附圖對本專利技術(shù)的具體實(shí)施方式作進(jìn)一步的詳細(xì)說明。 高性能計(jì)算集群(HPCC,High Performance Computing Cluster):計(jì)算機(jī)科學(xué)的一個(gè)分支,以解決復(fù)雜的科學(xué)計(jì)算或數(shù)值計(jì)算問題為目的,是由多臺(tái)節(jié)點(diǎn)機(jī)(服務(wù)器)構(gòu)成的一種松散耦合的計(jì)算節(jié)點(diǎn)集合。Torque是指一種開源的集群作業(yè)調(diào)度資源管理系統(tǒng);Maui是指種開源的作業(yè)調(diào)度器。為解決Torque中節(jié)點(diǎn)資源配置方式單一,不適用于大規(guī)模集群及復(fù)雜節(jié)點(diǎn)資源配置的問題,本專利技術(shù)在Torque和Maui的基礎(chǔ)上引入了分區(qū)的概念,同時(shí)提供了 “隊(duì)列分區(qū)配置工具Qpar”、“分區(qū)節(jié)點(diǎn)配置工具Pnode”兩種配置工具。分區(qū)是對集群中節(jié)點(diǎn)資源進(jìn)行統(tǒng)一劃分管理的單位。分區(qū)概念的引入,解除了隊(duì)列與計(jì)算節(jié)點(diǎn)之間的直接關(guān)聯(lián)關(guān)系,建立了隊(duì)列與分區(qū)、分區(qū)與節(jié)點(diǎn)兩層關(guān)聯(lián)關(guān)系。本專利技術(shù)提供的隊(duì)列、分區(qū)和計(jì)算節(jié)點(diǎn)資源配置如圖I所示,一個(gè)隊(duì)列中包含I個(gè)或多個(gè)分區(qū);同一個(gè)分區(qū)也可以同時(shí)屬于多個(gè)隊(duì)列所有。a、本專利技術(shù)中提供了隊(duì)列分區(qū)配置工具“Qpar”,用于配置、查看隊(duì)列與分區(qū)表之間的對應(yīng)關(guān)系。該工具維護(hù)一份“隊(duì)列分區(qū)表”文件,“隊(duì)列分區(qū)表”文件中記錄了所有隊(duì)列與分區(qū)之間的對應(yīng)信息。Qpar隊(duì)列分區(qū)配置工具使用說明如表I所示表I QPar隊(duì)列分區(qū)配置工具使用說明 qparM...................................................................................I蘇麗瓦麗不灰麗麗麗..................................................................................| qpar屋至.................................................................I顯示指是阮莉·芬醫(yī).............................................................................................................................................................| ' addqpar仄列S '添(該方式添如,仄·另欽認(rèn)設(shè)置)丨 addqpar隊(duì)列名分區(qū)名為指定隊(duì)列添加分區(qū) ] addqpar隊(duì)列名all 指定隊(duì)列將可以使坩調(diào)度系統(tǒng)中的所有分區(qū) ] delqpar隊(duì)列名丨刪除指定隊(duì)列丨 delqpar隊(duì)列名分區(qū)名從隊(duì)列中刪除指定分區(qū)丨 Iqflush_I使r隊(duì)列分本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述方法包括下述步驟:(1)作業(yè)被提交到調(diào)度資源管理系統(tǒng);(2)指定運(yùn)行的作業(yè)隊(duì)列;(3)判斷作業(yè)隊(duì)列所對應(yīng)分區(qū)的空閑程度及優(yōu)先順序,并選擇至少一個(gè)的分區(qū);(4)確定作業(yè)運(yùn)行所需的至少一個(gè)計(jì)算節(jié)點(diǎn);(5)將作業(yè)調(diào)度到選定的計(jì)算節(jié)點(diǎn)上。
【技術(shù)特征摘要】
1.一種集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述方法包括下述步驟 (1)作業(yè)被提交到調(diào)度資源管理系統(tǒng); (2)指定運(yùn)行的作業(yè)隊(duì)列; (3)判斷作業(yè)隊(duì)列所對應(yīng)分區(qū)的空閑程度及優(yōu)先順序,并選擇至少一個(gè)的分區(qū); (4)確定作業(yè)運(yùn)行所需的至少一個(gè)計(jì)算節(jié)點(diǎn); (5)將作業(yè)調(diào)度到選定的計(jì)算節(jié)點(diǎn)上。2.如權(quán)利要求I所述的集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述步驟(I)中,作業(yè)被提交到調(diào)度資源管理系統(tǒng)Torque資源管理器中。3.如權(quán)利要求I所述的集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述步驟(2)中,通過Torque資源管理器指定運(yùn)行的作業(yè)隊(duì)列。4.如權(quán)利要求I所述的集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述步驟(3)中,根據(jù)隊(duì)列分區(qū)配置工具Qpar的配置調(diào)度系統(tǒng)判斷作業(yè)隊(duì)列所對應(yīng)分區(qū)的空閑程度及優(yōu)先順序,并選擇至少一個(gè)的分區(qū)。5.如權(quán)利要求4所述的集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述隊(duì)列分區(qū)配置工具Qpar是指用于配置、查看隊(duì)列與隊(duì)列分區(qū)表之間的對應(yīng)關(guān)系;所述隊(duì)列分區(qū)表中記錄了隊(duì)列與分區(qū)之間的對應(yīng)信息。6.如權(quán)利要求5所述的集群計(jì)算資源的分區(qū)調(diào)度管理方法,其特征在于,所述隊(duì)列分區(qū)配置工具Qpar包括以下命令 A、顯示所有隊(duì)列及各隊(duì)列對應(yīng)的分區(qū); B、顯示指定隊(duì)列的分區(qū); C、添加新的隊(duì)列,添加的隊(duì)列為默認(rèn)設(shè)置; D、為指定隊(duì)列添加分區(qū); E、所述指定隊(duì)列使用調(diào)度...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張磊,張濤,
申請(專利權(quán))人:曙光信息產(chǎn)業(yè)北京有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。