【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于智能交通,涉及基于多智能體的多車道匝道合流區(qū)車輛控制方法及系統(tǒng)。
技術(shù)介紹
1、融合智能化、網(wǎng)聯(lián)化的自動駕駛汽車是未來汽車的重要發(fā)展方向,智能交通系統(tǒng)its提高了交通安全性和舒適性,智能網(wǎng)聯(lián)汽車cav是智能交通系統(tǒng)its的重要組成部分,通過集成人工智能和自動化技術(shù),智能網(wǎng)聯(lián)汽車cav有望改善道路安全,緩解交通擁堵,并從根本上改變傳統(tǒng)的出行方式和交通管理模式。然而,為智能網(wǎng)聯(lián)汽車cav制定可靠的控制策略以應(yīng)對實際駕駛的復(fù)雜性仍然是一項巨大的挑戰(zhàn),尤其是長時間智能網(wǎng)聯(lián)汽車cav和人類駕駛汽車hdv共存的混合交通環(huán)境。智能網(wǎng)聯(lián)汽車cav不僅需要對道路對象做出反應(yīng),而且還需要關(guān)注人類駕駛汽車hdv的行為。在眾多具有挑戰(zhàn)性的駕駛場景中,入口匝道合流問題為最困難的任務(wù)之一。每年發(fā)生在合流區(qū)的事故近30萬起,死亡人數(shù)近5萬人。為進一步提升交通效率和安全性,關(guān)于合流過程中車輛的決策控制已成為近年來的研究熱點。
2、針對高度復(fù)雜、高度動態(tài)變化解空間下匝道合流區(qū)場景中的車輛協(xié)同控制問題,基于多智能體深度強化學(xué)習(xí)madrl的方法展現(xiàn)了巨大的潛力。通過在訓(xùn)練過程中不斷學(xué)習(xí)和適應(yīng)各種環(huán)境輸入、不確定性和干擾,來實現(xiàn)對智能體有效地管理。然而多智能體深度強化學(xué)習(xí)madrl算法在訓(xùn)練過程中常常難以達到穩(wěn)定狀態(tài),或者訓(xùn)練進展緩慢,導(dǎo)致模型收斂困難,無法高效穩(wěn)定的解決混合交通下多車道匝道合流區(qū)場景的車輛匯入決策控制問題。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的不足,本專利技術(shù)旨在提供基于多智能
2、為了實現(xiàn)上述目的,本專利技術(shù)采用如下技術(shù)方案:
3、本專利技術(shù)提供基于多智能體的多車道匝道合流區(qū)車輛控制方法,包括以下步驟:構(gòu)建多車道混合交通流匝道合流區(qū)的仿真系統(tǒng);基于多車道混合交通流匝道合流區(qū)的仿真系統(tǒng)獲取智能體運動狀態(tài);基于多智能體深度確定性策略梯度maddpg算法,調(diào)整智能體在混合交通匝道合流區(qū)運動狀態(tài);基于二次神經(jīng)元的actor網(wǎng)絡(luò),構(gòu)建基于二次神經(jīng)元的多智能體深度策略性梯度bq-maddpg算法;基于二次神經(jīng)元的多智能體深度策略性梯度bq-maddpg算法中,調(diào)整智能體在多車道匝道合流區(qū)運動狀態(tài),直至智能體完全駛離多車道匝道合流區(qū)。
4、進一步地,所述智能體運動狀態(tài)包括:每個智能體對應(yīng)的狀態(tài)空間、動作空間及獎勵函數(shù)。
5、進一步地,所述每個智能體對應(yīng)的狀態(tài)空間包括:當(dāng)前車輛和在感知范圍內(nèi)距離當(dāng)前車輛最近的四輛車;
6、
7、其中,為當(dāng)前車輛的狀態(tài)信息,和為當(dāng)前車輛前面最近兩輛車的狀態(tài)信息,和為當(dāng)前車輛后面最近兩輛車的狀態(tài)信息。
8、進一步地,所述每個智能體對應(yīng)的動作空間包括:
9、
10、其中,為當(dāng)前車輛的縱向加速度,-4.53.5;為當(dāng)前車輛的橫向加速度,-1.21.2。
11、進一步地,所述每個智能體對應(yīng)的獎勵函數(shù)包括:
12、
13、其中,、、、、為常數(shù)項,為車輛的碰撞獎勵函數(shù),為車輛的速度獎勵函數(shù),為車輛的舒適度獎勵函數(shù),為車輛的合流距離獎勵函數(shù),為車輛的編導(dǎo)獎勵函數(shù)。
14、進一步地,所述基于多智能體深度確定性策略梯度maddpg算法,調(diào)整智能體在混合交通匝道合流區(qū)運動狀態(tài),包括:每個智能體根據(jù)actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò),調(diào)整在混合交通匝道合流區(qū)運動狀態(tài);所述actor網(wǎng)絡(luò)包括actor訓(xùn)練網(wǎng)絡(luò)和actor目標(biāo)網(wǎng)絡(luò),critic網(wǎng)絡(luò)包括critic訓(xùn)練網(wǎng)絡(luò)和critic目標(biāo)網(wǎng)絡(luò)。
15、進一步地,所述critic訓(xùn)練網(wǎng)絡(luò)在更新時,先計算目標(biāo)函數(shù),使用目標(biāo)函數(shù)計算損失函數(shù),之后使用梯度下降更新智能體critic訓(xùn)練網(wǎng)絡(luò)的參數(shù)。
16、進一步地,所述actor訓(xùn)練網(wǎng)絡(luò)在更新時,先計算損失函數(shù),之后使用梯度上升更新智能體actor訓(xùn)練網(wǎng)絡(luò)的參數(shù)。
17、進一步地,所述多車道混合交通流匝道合流區(qū)包括雙車道主道和單車道匝道。
18、本專利技術(shù)還提供了基于多智能體的多車道匝道合流區(qū)車輛控制系統(tǒng),包括:仿真模塊:用于構(gòu)建多車道混合交通流匝道合流區(qū)的仿真系統(tǒng);獲取模塊:用于基于多車道混合交通流匝道合流區(qū)的仿真系統(tǒng)獲取智能體運動狀態(tài);第一執(zhí)行模塊:用于基于多智能體深度確定性策略梯度maddpg算法,調(diào)整智能體在混合交通匝道合流區(qū)運動狀態(tài);構(gòu)建模塊:用于基于二次神經(jīng)元的actor網(wǎng)絡(luò),構(gòu)建基于二次神經(jīng)元的多智能體深度策略性梯度bq-maddpg算法;第二執(zhí)行模塊:用于基于二次神經(jīng)元的多智能體深度策略性梯度bq-maddpg算法中,調(diào)整智能體在多車道匝道合流區(qū)運動狀態(tài),直至智能體完全駛離多車道匝道合流區(qū)。
19、與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下有益的技術(shù)效果:
20、本專利技術(shù)基于多智能體的多車道匝道合流區(qū)車輛控制方法,在二次神經(jīng)元的多智能體深度策略性梯度bq-maddpg算法中,將智能網(wǎng)聯(lián)汽車cav作為智能體進行控制,且在actor網(wǎng)絡(luò)中加入二次神經(jīng)元,可以顯著提升二次神經(jīng)元的多智能體深度策略性梯度bq-maddpg算法的非線性表達能力、策略優(yōu)化效率、適應(yīng)復(fù)雜交互場景的能力以及泛化能力。
21、本專利技術(shù)基于多智能體的多車道匝道合流區(qū)車輛控制方法,在多車道混合交通下的匝道合流區(qū)場景下,將智能網(wǎng)聯(lián)汽車cav的決策控制問題建模為馬爾可夫過程,并設(shè)計對應(yīng)的狀態(tài)空間、動作空間和獎勵函數(shù),可以顯著提高智能網(wǎng)聯(lián)汽車cav在復(fù)雜交通場景下的決策準(zhǔn)確性和適應(yīng)性,優(yōu)化交通流并提升智能化水平。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述智能體運動狀態(tài)包括:每個智能體對應(yīng)的狀態(tài)空間、動作空間及獎勵函數(shù)。
3.根據(jù)權(quán)利要求2所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述每個智能體對應(yīng)的狀態(tài)空間包括:當(dāng)前車輛和在感知范圍內(nèi)距離當(dāng)前車輛最近的四輛車;
4.根據(jù)權(quán)利要求2所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述每個智能體對應(yīng)的動作空間包括:
5.根據(jù)權(quán)利要求2所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述每個智能體對應(yīng)的獎勵函數(shù)包括:
6.根據(jù)權(quán)利要求1所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述基于多智能體深度確定性策略梯度MADDPG算法,調(diào)整智能體在混合交通匝道合流區(qū)運動狀態(tài),包括:每個智能體根據(jù)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),調(diào)整在混合交通匝道合流區(qū)運動狀態(tài);
7.根據(jù)權(quán)利要求6所述的基于多智能體
8.根據(jù)權(quán)利要求6所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于:所述Actor訓(xùn)練網(wǎng)絡(luò)在更新時,先計算損失函數(shù),之后使用梯度上升更新智能體Actor訓(xùn)練網(wǎng)絡(luò)的參數(shù)。
9.根據(jù)權(quán)利要求1所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于:
10.基于多智能體的多車道匝道合流區(qū)車輛控制系統(tǒng),包括:
...【技術(shù)特征摘要】
1.基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述智能體運動狀態(tài)包括:每個智能體對應(yīng)的狀態(tài)空間、動作空間及獎勵函數(shù)。
3.根據(jù)權(quán)利要求2所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述每個智能體對應(yīng)的狀態(tài)空間包括:當(dāng)前車輛和在感知范圍內(nèi)距離當(dāng)前車輛最近的四輛車;
4.根據(jù)權(quán)利要求2所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述每個智能體對應(yīng)的動作空間包括:
5.根據(jù)權(quán)利要求2所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,所述每個智能體對應(yīng)的獎勵函數(shù)包括:
6.根據(jù)權(quán)利要求1所述的基于多智能體的多車道匝道合流區(qū)車輛控制方法,其特征在于,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:閔海根,吳霞,趙祥模,劉勇,夏森,王武祺,陳仕祥,邢晟盛,安然,韓世杰,
申請(專利權(quán))人:長安大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。