【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于深度強化學習自動駕駛領(lǐng)域,涉及車輛安全決策技術(shù),具體涉及一種基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法。
技術(shù)介紹
1、在自動駕駛領(lǐng)域,確保車輛能夠在多種多樣的駕駛場景下做出安全決策是至關(guān)重要的,這直接關(guān)系到駕駛員和乘客的生命財產(chǎn)安全。傳統(tǒng)的自動駕駛系統(tǒng)基本采用模塊化方法,其中每個功能,如感知、預(yù)測和決策等,分別開發(fā)并集成到系統(tǒng)中。模塊化方法中最常見的決策方法是使用基于規(guī)則的方法,這對于解決駕駛時發(fā)生的大量情況通常是無效的。因此,現(xiàn)有的方法主要趨向數(shù)據(jù)學習策略來實現(xiàn)安全決策,例如模仿學習和深度強化學習。
2、基于深度強化學習的自動駕駛安全決策方法是一種將長序列駕駛?cè)蝿?wù)表征為馬爾科夫決策過程,智能車輛通過與環(huán)境的不斷交互,在獎勵函數(shù)的指導(dǎo)下自行學習駕駛策略,從而根據(jù)當前狀態(tài)觀測給出自適應(yīng)最優(yōu)決策動作的方法。它允許智能汽車通過試錯來優(yōu)化其決策效果,而不依賴于人工設(shè)計的規(guī)則和人類駕駛數(shù)據(jù)。當前的深度強化學習自動駕駛方法主要分為兩大類:端到端的方法和解耦的方法。端到端的方法直接學習從原始傳感器數(shù)據(jù)到控制命令的映射。由于傳感器數(shù)據(jù)通常是復(fù)雜的高維數(shù)據(jù),包含干擾和冗余信息,這需要較深的網(wǎng)絡(luò)才能學習到良好的駕駛策略。但drl產(chǎn)生的梯度通常不足以有效訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),使得訓(xùn)練過程變得困難。而解耦的方法通常將自動駕駛系統(tǒng)分為感知和決策兩部分。首先,感知部分使用監(jiān)督學習訓(xùn)練深度網(wǎng)絡(luò),對環(huán)境進行理解并產(chǎn)生一個中間表示;然后決策部分使用強化學習訓(xùn)練較淺的網(wǎng)絡(luò),從中間表示中學習駕駛策略。主要有兩種方法,一種訓(xùn)練感知模型直接
3、目前,使用潛在特征作為強化學習狀態(tài)的方法在涉及大量動態(tài)對象的高流量密度場景中,尤其在罕見的突發(fā)事件下存在缺乏安全性的問題。促成了這種安全問題的因素有很多,其中兩個主要缺陷是:1)缺乏全面的場景感知。單個傳感器通常不能提供足夠的信息來感知駕駛場景,單圖像方法不能提供場景的準確3d信息,單激光雷達方法則無法提供語義信息。2)缺乏交通場景的時間維度信息??梢?,對動態(tài)駕駛場景不能只捕獲空間信息,還應(yīng)該捕獲連續(xù)輸入之間的動態(tài)變化性。此外,預(yù)測周圍交通參與者的未來行為對自動駕駛汽車采取安全可靠的決策也至關(guān)重要。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)的目的是為了克服現(xiàn)有技術(shù)的不足,提出一種基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其感知和預(yù)測編碼器不僅考慮空間維度的信息而且引入時間維度的信息,實現(xiàn)了對動態(tài)場景的全面理解,從而提高了行車安全性,更加符合實際應(yīng)用的需要。
2、為了實現(xiàn)上述目的,本專利技術(shù)具體采用的技術(shù)方案如下:
3、基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其先構(gòu)建了一個多模態(tài)時空感知編碼器從多模態(tài)連續(xù)輸入中聯(lián)合建??臻g和運動信息,以獲取動態(tài)駕駛場景的當前感知表征;而后,引入未來預(yù)測編碼器從當前感知表征中捕獲不同交通參與者之間的交互,獲取未來預(yù)測表征;而后,連接當前感知表征和未來預(yù)測表征形成多模態(tài)時空表征并作為強化學習的狀態(tài)輸入,以全面把握場景,并結(jié)合分布式ppo算法,在針對安全決策設(shè)計的獎勵函數(shù)指導(dǎo)下實現(xiàn)安全決策任務(wù),具體包括以下步驟:
4、s1、原始傳感器數(shù)據(jù)的采集及預(yù)處理;其中,原始傳感器數(shù)據(jù)包括當前時刻的前視rgb彩色圖像、激光雷達點云、速度數(shù)據(jù)以及與車道中心的偏差距離和偏差角度數(shù)據(jù);對于激光雷達點云,首先將過去五幀的激光雷達點云重新對準當前時刻的車輛坐標系,然后將這連續(xù)六幀的點云都體素化為具有固定分辨率的2d?bev網(wǎng)格,最后將它們連接起來得到六通道激光雷達bev投影偽圖像;對于速度數(shù)據(jù)以及與車道中心的偏差距離和偏差角度數(shù)據(jù),進行歸一化操作;
5、s2、結(jié)合空間感知和運動感知的多任務(wù)頭監(jiān)督訓(xùn)練一個多模態(tài)時空感知編碼器,從單幀前視rgb彩色圖像和連續(xù)六幀的激光雷達bev投影偽圖像中提取當前感知表征;該多模態(tài)時空感知編碼器的網(wǎng)絡(luò)由圖像特征提取主干網(wǎng)絡(luò)、激光雷達bev特征提取主干網(wǎng)絡(luò)、多模態(tài)特征融合網(wǎng)絡(luò)和多任務(wù)頭網(wǎng)絡(luò)組成;
6、s3、訓(xùn)練未來預(yù)測編碼器學習從多模態(tài)時空感知編碼器輸出的激光雷達bev特征flidar_fusion中捕獲各交通參與者的相互關(guān)系,獲取動態(tài)駕駛場景的未來預(yù)測表征;該未來預(yù)測編碼器的網(wǎng)絡(luò)由位置注意力網(wǎng)絡(luò)、通道注意力網(wǎng)絡(luò)、注意力融合網(wǎng)絡(luò)和未來預(yù)測任務(wù)頭網(wǎng)絡(luò)組成;
7、s4、完成步驟s2和步驟s3的監(jiān)督訓(xùn)練后,設(shè)計獎勵函數(shù),使用分布式ppo強化學習算法訓(xùn)練深度強化學習決策模型,從激光雷達bev特征和未來預(yù)測特征組成的多模態(tài)時空表征以及速度數(shù)據(jù)、與車道中心的偏差距離和偏差角度數(shù)據(jù)中學習最優(yōu)安全決策策略。
8、進一步地,所述的圖像特征提取主干網(wǎng)絡(luò)通過一個經(jīng)過imagenet預(yù)訓(xùn)練的resnet-34網(wǎng)絡(luò)的四個殘差卷積塊分別進行特征提取得到四個具有不同層次信息的圖像特征si表示不同的特征提取階段。
9、進一步地,所述的激光雷達bev特征提取主干網(wǎng)絡(luò)以連續(xù)六幀的六通道激光雷達bev投影偽圖像為輸入項,通過一個引入時空卷積結(jié)構(gòu)的vi?deoresnet-18網(wǎng)絡(luò)的四個時空卷積塊分別進行特征提取得到四個具有不同層次信息的激光雷達bev特征其中si表示不同的特征提取階段。
10、進一步地,所述的多模態(tài)特征融合網(wǎng)絡(luò)用于將四個不同尺度的圖像特征和四個不同尺度的激光雷達bev特征分別進行特征融合,融合時,先將兩個分支的主干網(wǎng)絡(luò)提取的圖像特征和激光雷達bev特征經(jīng)過維度重塑后連接得到序列向量然后將經(jīng)過一個多模態(tài)融合transformer模塊,實現(xiàn)不同模態(tài)特征之間的充分信息交互,獲取到3d場景中的全局時空上下文特征最后,將切片且分別還原為和相同維度的特征,并和進行元素相加得到經(jīng)過融合后的圖像特征和激光雷達bev特征
11、進一步地,為了捕獲不同分支任務(wù)之間的相互關(guān)系,增強不同分支中的特征表達,圖像分支和激光雷達bev分支分別使用不同的多任務(wù)頭進行監(jiān)督訓(xùn)練,;圖像分支由hdep和hsem兩個任務(wù)頭組成,分別為前視圖像的深度估計和語義分割;使用交叉熵損失進行前視語義分割,使用l1損失監(jiān)督前視深度估計任務(wù);bev點云分支由任務(wù)頭hbev,hv和hbb組成,分別用于bev語義分割、周邊車輛速度預(yù)測和2d目標檢測;使用交叉熵損失進行bev語義分割,使用l2損失監(jiān)督周邊車輛速度預(yù)測,2d目標檢測使用centernet解碼器來定位場景中的其他交通參與者。
12、進一步地,所述的步驟s3中,位置注意力網(wǎng)絡(luò)將多模態(tài)時空融合后的激光雷達b本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的圖像特征提取主干網(wǎng)絡(luò)通過一個經(jīng)過ImageNet預(yù)訓(xùn)練的ResNet-34網(wǎng)絡(luò)的四個殘差卷積塊分別進行特征提取得到四個具有不同層次信息的圖像特征其中Si表示不同的特征提取階段。
3.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的激光雷達BEV特征提取主干網(wǎng)絡(luò)以連續(xù)六幀的六通道激光雷達BEV投影偽圖像為輸入項,通過一個引入時空卷積結(jié)構(gòu)的VideoResnet-18網(wǎng)絡(luò)的四個時空卷積塊分別進行特征提取得到四個具有不同層次信息的激光雷達BEV特征其中Si表示不同的特征提取階段。
4.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的多模態(tài)特征融合網(wǎng)絡(luò)用于將四個不同尺度的圖像特征和四個不同尺度的激光雷達BEV特征分別進行特征融合,融合時,先將兩個分支的主干網(wǎng)絡(luò)提取的圖像特征和激光雷達BEV特征經(jīng)過維度重塑后連
5.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,圖像分支和激光雷達BEV分支分別使用不同的多任務(wù)頭進行監(jiān)督訓(xùn)練,圖像分支由Hdep和Hsem兩個任務(wù)頭組成,分別為前視圖像的深度估計和語義分割;BEV點云分支由任務(wù)頭Hbev,Hv和Hbb組成,分別用于BEV語義分割、周邊車輛速度預(yù)測和2D目標檢測。
6.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的步驟S3中,位置注意力網(wǎng)絡(luò)將多模態(tài)時空融合后的激光雷達BEV特征flidar_fusion分別輸入到三個卷積層獲取三個與原來相同維度的特征圖,然后將它們的維度調(diào)整為三個相同維度的二維特征和接著,在的轉(zhuǎn)置和之間執(zhí)行矩陣乘法,并應(yīng)用SoftMax層計算空間注意力圖slo;然后在slo和的轉(zhuǎn)置之間執(zhí)行矩陣乘法,捕獲特征圖任意兩個位置之間的空間依賴性,并將結(jié)果重新調(diào)整維度得到與flidar_fusion相同維度的特征圖最后將和flidar_fusion進行元素相加得到位置注意力網(wǎng)絡(luò)的最終輸出
7.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的步驟S3中,通道注意力網(wǎng)絡(luò)將多模態(tài)時空融合后的激光雷達BEV特征flidar_fusion進行維度調(diào)整得到兩個相同維度的二維特征然后在的轉(zhuǎn)置和之間執(zhí)行矩陣乘法,并應(yīng)用SoftMax層來獲取通道注意力圖sch;之后在sch和flidar_fusion的轉(zhuǎn)置之間執(zhí)行矩陣乘法,捕獲任意兩個通道之間的通道依賴性,并將結(jié)果重新調(diào)整維度得到與flidar_fusion相同維度的特征圖最后將和flidar_fusion進行元素相加得到通道注意力網(wǎng)絡(luò)的最終輸出
8.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的步驟S3中,注意融合網(wǎng)絡(luò)將位置注意力網(wǎng)絡(luò)和通道注意力網(wǎng)絡(luò)的輸出和經(jīng)過元素相加和卷積操作得到未來預(yù)測特征ffuture;未來預(yù)測任務(wù)頭網(wǎng)絡(luò)從未來預(yù)測特征ffuture中解析未來0.5秒后的場景狀態(tài)。
9.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的步驟S4中,獎勵函數(shù)包括觸發(fā)預(yù)定義事件獲得的稀疏獎勵和每個時間戳都獲得的稠密獎勵;稀疏獎勵包含六種,分別是發(fā)生碰撞、無故停車、超速、偏差距離大于閾值、偏差角度大于閾值及其偏差角速度大于閾值,當滿足上述條件時給予懲罰;稠密獎勵包含四種,分別是偏差距離獎勵、偏差角度獎勵、角速度獎勵以及速度獎勵。
10.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的步驟S4中,采用多分支橫縱向分離的網(wǎng)絡(luò)結(jié)構(gòu),對一組高級導(dǎo)航命令中的每個導(dǎo)航命令采用獨立的動作預(yù)測分支,導(dǎo)航命令充當在每個時間戳下使用哪個分支的選擇開關(guān),每個分支學習特定于其導(dǎo)航命令的子策略;在每個分支中,考慮到車輛的運動控制涉及兩個相對獨立的操作:橫向控制和縱向控制,設(shè)計兩個相同的分支分別處理橫向控制和縱向控制。
11.如權(quán)利要求10所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,橫向控制和縱向控制的網(wǎng)絡(luò)結(jié)構(gòu)均由策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)組...
【技術(shù)特征摘要】
1.基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的圖像特征提取主干網(wǎng)絡(luò)通過一個經(jīng)過imagenet預(yù)訓(xùn)練的resnet-34網(wǎng)絡(luò)的四個殘差卷積塊分別進行特征提取得到四個具有不同層次信息的圖像特征其中si表示不同的特征提取階段。
3.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的激光雷達bev特征提取主干網(wǎng)絡(luò)以連續(xù)六幀的六通道激光雷達bev投影偽圖像為輸入項,通過一個引入時空卷積結(jié)構(gòu)的videoresnet-18網(wǎng)絡(luò)的四個時空卷積塊分別進行特征提取得到四個具有不同層次信息的激光雷達bev特征其中si表示不同的特征提取階段。
4.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的多模態(tài)特征融合網(wǎng)絡(luò)用于將四個不同尺度的圖像特征和四個不同尺度的激光雷達bev特征分別進行特征融合,融合時,先將兩個分支的主干網(wǎng)絡(luò)提取的圖像特征和激光雷達bev特征經(jīng)過維度重塑后連接得到序列向量然后將經(jīng)過一個多模態(tài)融合transformer模塊,實現(xiàn)不同模態(tài)特征之間的充分信息交互,獲取到3d場景中的全局時空上下文特征最后,將切片且分別還原為和相同維度的特征,并和進行元素相加得到經(jīng)過融合后的圖像特征和激光雷達bev特征
5.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,圖像分支和激光雷達bev分支分別使用不同的多任務(wù)頭進行監(jiān)督訓(xùn)練,圖像分支由hdep和hsem兩個任務(wù)頭組成,分別為前視圖像的深度估計和語義分割;bev點云分支由任務(wù)頭hbev,hv和hbb組成,分別用于bev語義分割、周邊車輛速度預(yù)測和2d目標檢測。
6.如權(quán)利要求1所述的基于多模態(tài)時空表征的級聯(lián)深度強化學習安全決策方法,其特征在于,所述的步驟s3中,位置注意力網(wǎng)絡(luò)將多模態(tài)時空融合后的激光雷達bev特征flidar_fusion分別輸入到三個卷積層獲取三個與原來相同維度的特征圖,然后將它們的維度調(diào)整為三個相同維度的二維特征和接著,在的轉(zhuǎn)置和之間執(zhí)行矩陣乘法,并應(yīng)用softmax層計算空間注意力圖slo;然后在slo和的轉(zhuǎn)置之間執(zhí)行矩陣乘法,捕獲特征...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊宇翔,葛風龍,趙巨峰,凡金龍,董哲康,高明裕,
申請(專利權(quán))人:杭州電子科技大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。