【技術實現步驟摘要】
本專利技術涉及交通信號燈控制,具體的說是一種基于深度強化學習的交通信號燈自適應配時控制方法及系統。
技術介紹
1、隨著城市化進程的加速和汽車保有量的增加,城市交通擁堵問題日益嚴重。傳統的固定時間控制策略由于無法適應實時交通狀況而效率低下。自適應交通信號控制利用實時數據和算法靈活調整信號配時,成為更有效的解決方案。然而,面對復雜的交通環境,傳統自適應交通信號控制方法的適應性和有效性受限。深度強化學習的發展為解決這一問題提供了新途徑,通過與交通環境的持續交互學習最優控制策略。基于深度強化學習的策略分為信號相位控制和信號相位持續時間控制兩大類。前者靈活但可能導致駕駛員無法預知信號燈狀態,后者則根據交通狀況實時調整相位持續時間,但相位切換順序固定,可能導致綠燈時間浪費。
技術實現思路
1、為了解決現有技術中的不足,本專利技術提供一種基于深度強化學習的交通信號燈自適應配時控制方法及系統,能夠更加靈活和精確地對交通信號燈進行控制。
2、為了實現上述目的,本專利技術采用的具體方案為:基于深度強化學習的交通信號燈自適應配時控制方法,包括如下步驟:
3、基于預先構建的城市交叉口模型獲取實時交通狀態;
4、基于實時交通狀態通過預先訓練好的基于深度確定性策略梯度算法的交通信號控制模型生成理論最優動作,理論最優動作包括多個與交通信號燈一一對應的單體動作,單體動作包括動作狀態和動作存續時長;
5、將理論最優動作與預先確定的標準動作區間進行比較,并且根據比較結果
6、基于實際最優動作對交通信號燈進行控制。
7、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:城市交叉口模型包括多條道路和多個交叉口,其中道路為南北方向或者東西方向,且每個道路均包括至少一個左轉車道、至少一個直行車道和至少一個右轉車道,相同方向的所有車道對應一個交通信號燈。
8、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:在城市交叉口模型中,道路被拆分為多個沿行進方向分布的單元格,且在遠離交叉口的方向上單元格的長度逐漸增大。
9、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:在獲取到實時交通狀態之后,將實時交通狀態轉換為狀態信息矩陣s={p,v,t,d},其中,p為車輛的位置,v為車輛速度,t為交通信號燈的相位切換順序,d為交通信號燈的相位持續時間。
10、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:交通信號控制模型包括基于策略函數的actor網絡和基于價值函數的critic網絡,actor網絡用于基于實時交通狀態生成備選動作,并且actor網絡包括第一主網絡和第一目標網絡,critic網絡用于對備選動作進行價值評估,critic網絡包括第二主網絡和第二目標網絡。
11、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:訓練交通信號控制模型的方法包括:
12、采集多個真實交通狀態組成數據集,并且初始化模型參數;
13、基于真實交通狀態和交通信號燈的相位切換順序隨機選取訓練動作,并且在執行訓練動作后計算獎勵值;
14、將真實交通狀態、訓練動作、獎勵值和真實交通狀態的變化結果作為經驗存儲到經驗池中;基于求和樹叢經驗池中提取出若干個樣本,并且基于樣本通過求解目標函數得到目標值;通過最小化損失對actor網絡的第一主網絡進行更新,并且通過梯度下降對critic網絡的第二主網絡進行更新;
15、對第一目標網絡和第二目標網絡進行更新;
16、當噪聲探索率低于預設的閾值時結束訓練。
17、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:將經驗存儲到經驗池中時為經驗賦予優先級,在從經驗池中提取樣本時基于優先級提取經驗。
18、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:經驗表示為(st,at,rt,st+1),其中,rt為獎勵值,at為訓練動作,st+1為真實交通狀態在執行訓練動作后的變化結果,st為真實交通狀態;
19、為經驗賦予優先級的方法為:
20、
21、其中,qt為,γ為,μt為,μ為,θμ為第一主網絡的權重,θq為第二主網絡的權重,為第二目標網絡的權重,為第二目標網絡的權重;
22、在從經驗池中提取樣本時,經驗被提取的概率為:
23、其中,pi為。
24、作為上述基于深度強化學習的交通信號燈自適應配時控制方法的進一步優化:隨機選取訓練動作的方法為:以概率ε選擇at=μ(st|θμ)+na以及以概率ε選擇at=μ(st|θμ),其中,na為自適應改變噪聲,并且有:
25、
26、其中,ξ∈[0,1]為噪聲選擇概率,x為,u(·)為。
27、基于深度強化學習的交通信號燈自適應配時控制方法系統,用于實現上述的基于深度強化學習的交通信號燈自適應配時控制方法,所述系統包括:
28、數據采集模塊,用于基于預先構建的城市交叉口模型獲取實時交通狀態;
29、模型運行模塊,用于基于實時交通狀態通過預先訓練好的基于深度確定性策略梯度算法的交通信號控制模型生成理論最優動作;
30、動作優化模塊,用于將理論最優動作與預先確定的標準動作區間進行比較,并且根據比較結果對理論最優動作進行修正得到實際最優動作;
31、控制輸出模塊,用于基于實際最優動作對交通信號燈進行控制。
32、有益效果:本專利技術結合信號相位持續時間控制和信號相位轉換機制,靈活的控制信號相位和相位持續時間,最大限度的減少綠燈信號的浪費;本專利技術基于改進的ddpg算法設計了交通信號控制模型,為了避免網絡訓練陷入局部最優,引入了提出一種根據網絡輸出動作值自適應改變的探索噪聲,提高了算法的探索性能;本專利技術采用了基于求和樹結構的優先經驗回放機制,提高了樣本學習效率,能夠在模型訓練過程中獲取高質量經驗,更好的提高網絡的學習性能。
本文檔來自技高網...【技術保護點】
1.基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,包括如下步驟:
2.如權利要求1所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,城市交叉口模型包括多條道路和多個交叉口,其中道路為南北方向或者東西方向,且每個道路均包括至少一個左轉車道、至少一個直行車道和至少一個右轉車道,相同方向的所有車道對應一個交通信號燈。
3.如權利要求2所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,在城市交叉口模型中,道路被拆分為多個沿行進方向分布的單元格,且在遠離交叉口的方向上單元格的長度逐漸增大。
4.如權利要求3所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,在獲取到實時交通狀態之后,將實時交通狀態轉換為狀態信息矩陣S={P,V,T,D},其中,P為車輛的位置,V為車輛速度,T為交通信號燈的相位切換順序,D為交通信號燈的相位持續時間。
5.如權利要求1所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,交通信號控制模型包括基于策略函數的Actor網絡和基于價值函數的Cri
6.如權利要求5所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,訓練交通信號控制模型的方法包括:
7.如權利要求6所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,將經驗存儲到經驗池中時為經驗賦予優先級,在從經驗池中提取樣本時基于優先級提取經驗。
8.如權利要求7所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,經驗表示為(st,at,rt,st+1),其中,rt為獎勵值,at為訓練動作,st+1為真實交通狀態在執行訓練動作后的變化結果,st為真實交通狀態;
9.如權利要求7所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,隨機選取訓練動作的方法為:以概率ε選擇at=μ(st|θμ)+Na以及以概率ε選擇at=μ(st|θμ),其中,Na為自適應改變噪聲,并且有:
10.基于深度強化學習的交通信號燈自適應配時控制方法系統,其特征在于,用于實現如權利要求1-9中任意一項所述的基于深度強化學習的交通信號燈自適應配時控制方法,所述系統包括:
...【技術特征摘要】
1.基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,包括如下步驟:
2.如權利要求1所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,城市交叉口模型包括多條道路和多個交叉口,其中道路為南北方向或者東西方向,且每個道路均包括至少一個左轉車道、至少一個直行車道和至少一個右轉車道,相同方向的所有車道對應一個交通信號燈。
3.如權利要求2所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,在城市交叉口模型中,道路被拆分為多個沿行進方向分布的單元格,且在遠離交叉口的方向上單元格的長度逐漸增大。
4.如權利要求3所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,在獲取到實時交通狀態之后,將實時交通狀態轉換為狀態信息矩陣s={p,v,t,d},其中,p為車輛的位置,v為車輛速度,t為交通信號燈的相位切換順序,d為交通信號燈的相位持續時間。
5.如權利要求1所述的基于深度強化學習的交通信號燈自適應配時控制方法,其特征在于,交通信號控制模型包括基于策略函數的actor網絡和基于價值函數的critic網絡,actor網絡用于基于實時交通狀態生成備選動作,并且actor網絡包括第一主網...
【專利技術屬性】
技術研發人員:陶發展,張杰,付主木,李夢楊,朱龍龍,王楠,王俊,王志凱,李娜,張偉,王建業,
申請(專利權)人:河南科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。