本發明專利技術涉及一種智能體與電網環境交互學習系統與方法、存儲介質,通過斷面潮流文件作為中間媒介,將強化學習智能體、狀態估計模塊、潮流計算模塊通過接口的形式進行交互聯動,以實現強化學習智能體的訓練。該方法可以有效復用調控系統中的狀態估計與調度員潮流計算等高級應用軟件,在降低建模復雜度的同時,使智能體訓練環境更接近真實電網環境,提高精確度。度。度。
【技術實現步驟摘要】
一種智能體與電網環境交互學習系統與方法、存儲介質
[0001]本專利技術涉及電網調控
,具體涉及一種智能體與電網環境交互學習系統與方法、存儲介質。
技術介紹
[0002]隨著我國市場經濟的持續發展,特高壓電網與交直流混聯電網的建設,分布式微電網的并網運行,以及可再生能源的高比例持續性接入,使電網的運行與控制面臨著越來越多的挑戰,而強化學習技術則為解決高非線性、高維度、高實時性的電網控制與決策問題提供了新的解決方案。在電網控制與決策任務中,強化學習智能體在訓練時不能與真實的電網環境進行交互,導致智能體操作不靈活、無法應對異常環境等問題,所以通常需要根據真實電網構造一套仿真環境。
[0003]由于真實電網環境元件數量多、拓撲關系與約束條件復雜,仿真環境的構建非常耗時耗力。現有方法采用模擬仿真環境的方式來構建智能體交互環境,與真實電網環境存在較大差異,造成控制和決策結果精確度較差,如果將訓練好的智能體模型應用至實際電網生產環境中進行在線決策,還需要大量的遷移與適配工作。
技術實現思路
[0004]本專利技術提供了一種智能體與電網環境交互學習系統與方法,針對電網仿真環境尤其是潮流求解器構建復雜繁瑣的問題,利用斷面潮流文件作為中間媒介,將強化學習智能體、狀態估計模塊、潮流計算模塊等模塊通過接口的形式進行交互聯動,以實現智能體的訓練。該方法可以有效復用調控系統中的狀態估計與調度員潮流計算等高級應用軟件,在降低建模復雜度的同時,使智能體訓練環境更接近真實電網環境,提高精確度。
[0005]本專利技術解決上述技術問題的方案如下:一種智能體與電網環境交互學習系統,所述系統包括狀態估計模塊、交互服務模塊、強化學習智能體與潮流計算模塊;所述交互服務模塊通過接口分別與所述狀態估計模塊、所述強化學習智能體與所述潮流計算模塊相連通;
[0006]所述狀態估計模塊用于讀取各個歷史時間點的電網信息,并根據電網信息生成歷史斷面潮流文件,根據各個歷史時間點的歷史斷面潮流文件按照期望目標分類得到與期望目標對應類別的歷史斷面潮流文件集合;
[0007]所述交互服務模塊用于按照智能體學習的期望目標從與期望目標對應類別的歷史斷面潮流文件集合中隨機選取目標歷史斷面潮流文件,并對目標歷史斷面潮流文件進行解析得到目標歷史電網狀態信息,然后將目標歷史電網狀態信息發送至強化學習智能體;
[0008]所述強化學習智能體用于根據目標歷史電網狀態信息預測執行動作,并將預測的執行動作發送給交互服務模塊,以使交互服務模塊根據預測的執行動作修改目標歷史斷面潮流文件,并將修改后的目標歷史斷面潮流文件發送給潮流計算模塊;
[0009]所述潮流計算模塊用于根據修改后的目標歷史斷面潮流文件計算歷史電網潮流,
并結合歷史電網潮流的計算結果生成新的歷史斷面潮流文件,將新生成的歷史斷面潮流文件發送給交互服務模塊。
[0010]優選的,所述交互服務模塊還用于對新生成的歷史斷面潮流文件解析形成新的電網狀態信息,基于新的電網狀態信息和預測的執行動作生成獎勵值,基于新的電網狀態信息判斷回合是否結束,并發送獎勵值和回合是否結束的結果至強化學習智能體,使強化學習智能體根據回合是否結束的結果執行相應的操作及根據獎勵值判斷訓練是否滿足預設結束條件。
[0011]優選的,所述獎勵值的生成方式包括:
[0012]在所述交互服務模塊判斷預測的執行動作屬于非法動作時,將獎勵值設置為負;在所述交互服務模塊判斷預測的執行動作不屬于非法動作時,則提取新的電網狀態信息中的電網效率數值生成獎勵值,電網效率數值越高獎勵值越大,電網效率數值越低獎勵值越小。
[0013]電網效率即為所有用電負荷的總需求量與所有發電機機組的總供給量的比例。非法動作包括在輸電線路維護期間對其進行重新連接操作,在各元件冷卻期間對其進行設置修改等情況。
[0014]優選的,所述判斷回合是否結束方式包括:
[0015]所述交互服務模塊根據新的電網狀態信息判斷強化學習智能體能否正常管控電網,若能,回合結束并將結果發送強化學習智能體,使強化學習智能體進入下一回合;若不能,回合不結束并將結果發送強化學習智能體,使強化學習智能體回到根據目標歷史電網狀態信息預測執行動作步驟并執行后續動作,直至回合結束。
[0016]強化學習智能體無法繼續正常管控電網,包括以下兩種情況:一是當出現太多斷開的輸電線路等情況時,輸電線路無法將用電負荷所需的功率及時傳輸,無法滿足電量消費,造成被迫限制用電甚至出現大范圍停電,或出現1個以上的發電機機組與電網斷開連接;二是智能體產生了一個錯誤動作,造成電網環境出現解列,形成若干個彼此孤立、互不相連的電網拓撲子圖。
[0017]優選的,所述電網信息包括電網模型參數、結線連接關系和一組有冗余的遙測量測值和遙信開關狀態。
[0018]優選的,所述狀態估計模塊用于通過所述電網信息,經過網絡拓撲分析與計算生成斷面潮流文件。
[0019]優選的,所述預設訓練結束條件包括達到預設的最大訓練步數、訓練至最后一個回合和獎勵值不再繼續提升。
[0020]一種智能體與電網環境交互學習方法,包括以下步驟:
[0021]所述狀態估計模塊讀取各個歷史時間點的電網信息,并根據電網信息生成歷史斷面潮流文件,根據各個歷史時間點的歷史斷面潮流文件按照智能體學習的期望目標分類得到與期望目標對應類別的歷史斷面潮流文件集合;
[0022]所述交互服務模塊按照智能體學習的期望目標從與期望目標對應類別的歷史斷面潮流文件集合中隨機選取目標歷史斷面潮流文件,并對目標歷史斷面潮流文件進行解析得到目標歷史電網狀態信息,然后將目標歷史電網狀態信息發送至強化學習智能體;
[0023]所述強化學習智能體用根據目標歷史電網狀態信息,預測執行動作,發送給交互
服務模塊;
[0024]所述交互服務模塊根據待執行的動作,修改目標歷史斷面潮流文件,然后將修改后的目標歷史斷面潮流文件發送給潮流計算模塊;
[0025]所述潮流計算模塊根據修改后的目標歷史斷面潮流文件計算歷史電網潮流,并結合歷史電網潮流的計算結果生成新的歷史斷面潮流文件,將新生成的歷史斷面潮流文件發送給交互服務模塊;
[0026]所述交互服務模塊接收并解析新生成的歷史斷面潮流文件,形成新的電網狀態信息,基于新的電網狀態信息和預測的執行動作生成獎勵值,基于新的電網狀態信息判斷回合是否結束,并發送獎勵值和回合是否結束的結果至強化學習智能體;
[0027]所述強化學習智能體接受獎勵值及回合是否結束結果,執行回合是否結束動作,根據獎勵值判斷訓練是否滿足預設結束條件。
[0028]本專利技術還提供一種智能體與電網環境交互方法,包括:
[0029]獲取實時電網信息;
[0030]將實時電網信息輸入智能體與電網環境交互系統,輸出電網調控操作動作;
[0031]其中,所述智能體與電網環境交互系統由如上所述的一種智能體與電網環境交互學習方法訓練得來。
[本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種智能體與電網環境交互學習系統,其特征在于,所述系統包括狀態估計模塊、交互服務模塊、強化學習智能體與潮流計算模塊;所述狀態估計模塊用于讀取各個歷史時間點的電網信息,并根據電網信息生成歷史斷面潮流文件,根據各個歷史時間點的歷史斷面潮流文件按照期望目標分類得到與期望目標對應類別的歷史斷面潮流文件集合;所述交互服務模塊用于按照智能體學習的期望目標從與期望目標對應類別的歷史斷面潮流文件集合中隨機選取目標歷史斷面潮流文件,并對目標歷史斷面潮流文件進行解析得到目標歷史電網狀態信息,然后將目標歷史電網狀態信息發送至強化學習智能體;所述強化學習智能體用于根據目標歷史電網狀態信息預測執行動作,并將預測的執行動作發送給交互服務模塊,以使交互服務模塊根據預測的執行動作修改目標歷史斷面潮流文件,并將修改后的目標歷史斷面潮流文件發送給潮流計算模塊;所述潮流計算模塊用于根據修改后的目標歷史斷面潮流文件計算歷史電網潮流,并結合歷史電網潮流的計算結果生成新的歷史斷面潮流文件,將新生成的歷史斷面潮流文件發送給交互服務模塊。2.根據權利要求1所述一種智能體與電網環境交互學習系統,其特征在于,所述交互服務模塊還用于對新生成的歷史斷面潮流文件解析形成新的電網狀態信息,基于新的電網狀態信息和預測的執行動作生成獎勵值,基于新的電網狀態信息判斷回合是否結束,并發送獎勵值和回合是否結束的結果至強化學習智能體,使強化學習智能體根據回合是否結束的結果執行相應的操作及根據獎勵值判斷訓練是否滿足預設結束條件。3.根據權利要求2所述一種智能體與電網環境交互學習系統,其特征在于,所述獎勵值的生成方式包括:在所述交互服務模塊判斷預測的執行動作屬于非法動作時,將獎勵值設置為負;在所述交互服務模塊判斷預測的執行動作不屬于非法動作時,則提取新的電網狀態信息中的電網效率數值生成獎勵值,電網效率數值越高獎勵值越大,電網效率數值越低獎勵值越小。4.根據權利要求2所述一種智能體與電網環境交互學習系統,其特征在于,所述判斷回合是否結束方式包括:所述交互服務模塊根據新的電網狀態信息判斷強化學習智能體能否正常管控電網,若能,回合結束并將結果發送強化學習智能體,使強化學習智能體進入下一回合;若不能,回合不結束并將結果發送強化學習智能體,使強化學習智能體回到根據目標歷史電網狀態信息預測執行動作步驟并執行后續動作,直至回合結束。5.根據權利要求1所述一種智能體與電網環境交互學習系統,其特征在于,所述電網信息包...
【專利技術屬性】
技術研發人員:邱鵬,凌兆偉,張天一,句榮濱,金宜放,王洪澤,喬詠田,單連飛,張越,趙勝奧,
申請(專利權)人:國網遼寧省電力有限公司國網電力科學研究院有限公司國家電網有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。