【技術實現步驟摘要】
本申請涉及深度學習,具體而言,涉及非線性狀態空間模型訓練方法與駕駛系統觀測量預測方法。
技術介紹
1、近年來,非線性系統辨識逐漸成為控制領域的研究熱點。這得益于機器學習方法在非線性函數回歸方面的巨大進展。而狀態空間模型是大多數現代控制設計技術的基礎,例如非線性控制、模型預測控制(model?predictive?control,mpc)、擴展卡爾曼濾波(extended?kalman?filter,ekf)等等。在非線性系統辨識領域中,非線性狀態空間模型的辨識存在執行信息降維時的僵化映射,這將影響后續的控制器設計。
技術實現思路
1、本申請實施例的目的在于提供一種非線性狀態空間模型訓練方法與駕駛系統觀測量預測方法,用以解決非線性狀態空間模型在信息降維時僵化映射的技術問題。
2、本申請實施例第一方面提供了一種非線性狀態空間模型訓練方法,所述方法包括:
3、獲取多個時刻下駕駛系統的信息時間序列;所述信息時間序列包括基于歷史駕駛行為確定的控制輸入量時間序列與真實觀測量時間序列;
4、利用編碼器中的編碼網絡將k-1時刻的信息時間序列映射至k時刻的第一狀態量,將k時刻的信息時間序列映射至k+1時刻的第二狀態量;
5、利用狀態網絡基于所述k時刻的第一狀態量與k時刻的控制輸入量預測k+1時刻的第三狀態量;所述狀態網絡用于表征所述駕駛系統的狀態量演變;
6、利用所述編碼器中的解碼網絡基于所述第一狀態量預測第一觀測量時間序列,基于所述第三狀
7、基于所述第一觀測量時間序列、所述第二觀測量時間序列、所述真實觀測量時間序列、所述第二狀態量、與所述第三狀態量構造損失函數,并基于所述損失函數更新所述編碼器與所述狀態網絡的模型參數,得到包括已訓練的解碼網絡和狀態網絡的非線性狀態空間模型。
8、在上述實現過程中,通過在模型訓練過程中賦予了編碼器捕捉輸入的信息時間序列與輸出的觀測量時間序列之間的時序關系的能力,由此解決了相關技術中非線性狀態空間模型在信息降維時存在僵化映射的問題,有助于提高非線性狀態空間模型的準確性和數值穩定性。
9、進一步地,所述編碼器包括第一編碼器與第二編碼器;所述利用編碼器中的編碼網絡將k-1時刻的信息時間序列映射至k時刻的第一狀態量,將k時刻的信息時間序列映射至k+1時刻的第二狀態量,包括:
10、利用所述第一編碼器中的編碼網絡將k-1時刻的信息時間序列映射至k時刻的第一狀態量;利用所述第二編碼器中的編碼網絡將k時刻的信息時間序列映射至k+1時刻的第二狀態量;
11、所述方法還包括:
12、基于所述k時刻的第一狀態量、所述k+1時刻的第二狀態量與所述k時刻的控制輸入量構造待訓練的所述狀態網絡。
13、在上述實現過程中,提供了狀態網絡的構建方法,構建后的狀態網絡作為待訓練網絡通過上述任意實施例的訓練方法進行訓練。
14、進一步地,所述方法還包括:
15、利用所述第二編碼器中的解碼網絡基于所述第二狀態量預測第三觀測量時間序列;
16、所述損失函數包括所述第一觀測量時間序列、所述第三觀測量時間序列與所述真實觀測量時間序列之間的第一損失項、所述第二狀態量與所述第三狀態量之間的第二損失項、以及所述第二觀測量時間序列與所述真實觀測量時間序列之間的第三損失項。
17、在上述實現過程中,基于提供的損失函數,可以避免狀態網絡的誤差通過解碼網絡被放大。基于該損失函數對解碼器與狀態網絡聯合進行訓練,可以得到非線性狀態空間模型。
18、本申請實施例第二方面提供了一種駕駛系統觀測量的預測方法,所述方法包括:
19、獲取已訓練的非線性狀態空間模型,所述非線性狀態空間模型包括狀態網絡與解碼網絡;
20、獲取當前時刻下所述駕駛系統的控制輸入量、以及所述駕駛系統的歷史狀態量;所述控制輸入量與駕駛員的駕駛行為相關;
21、利用已訓練的所述狀態網絡基于所述控制輸入量與所述歷史狀態量預測所述駕駛系統在當前時刻的狀態量;
22、利用已訓練的所述解碼網絡基于所述當前時刻的狀態量預測當前時刻的觀測量;所述觀測量用于表征車輛的行駛參數。
23、在上述實現過程中,將訓練得到的非線性狀態空間模型應用于車輛駕駛中的非線性控制問題,用模型預測駕駛系統的動態行為,從而可以通過在線優化實時調整車輛駕駛的控制策略,進而確保駕駛系統運行在最優狀態。
24、進一步地,所述解碼網絡與所述狀態網絡均包括輸入層、輸出層與兩層隱藏層,且使用線性修正單元relu函數為激活函數。
25、在上述實現過程中,提供了編碼網絡、解碼網絡與狀態網絡的模型結構,基于該模型結構可以搭建初始網絡,并通過上述任意實施例提供的訓練方法來更新模型參數。
26、進一步地,所述控制輸入量包括行駛方向上的縱向控制輸入量,所述觀測量包括所述行駛方向上的縱向觀測量;和/或
27、所述控制輸入量包括垂直于所述行駛方向的橫向控制輸入量;所述觀測量包括垂直于所述行駛方向的橫向觀測量。
28、進一步地,所述縱向控制輸入量包括油門踏板位置和/或制動踏板力度;所述縱向觀測量包括車輛加速度和/或速度;
29、所述橫向控制輸入量包括方向盤轉角和/或方向盤力矩;所述橫向觀測量包括車輛偏航角和/或方向盤轉速。
30、本申請實施例第三方面提供了一種電子設備,所述電子設備包括:
31、處理器;
32、用于存儲處理器可執行指令的存儲器;
33、其中,所述處理器調用所述可執行指令時實現第一方面或第二方面任一所述方法的操作。
34、本申請實施例第四方面提供了一種車輛,所述車輛包括如第三方面所述的電子設備。
35、本申請實施例第五方面提供了一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現第一方面或第二方面中任意一項所述的方法。
本文檔來自技高網...【技術保護點】
1.一種非線性狀態空間模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述編碼器包括第一編碼器與第二編碼器;所述利用編碼器中的編碼網絡將k-1時刻的信息時間序列映射至k時刻的第一狀態量,將k時刻的信息時間序列映射至k+1時刻的第二狀態量,包括:
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
4.一種駕駛系統觀測量的預測方法,其特征在于,所述方法包括:
5.根據權利要求4所述的方法,其特征在于,所述解碼網絡與所述狀態網絡均包括輸入層、輸出層與多層隱藏層,且使用線性修正單元ReLU函數為激活函數。
6.根據權利要求4或5所述的方法,其特征在于,所述控制輸入量包括行駛方向上的縱向控制輸入量,所述觀測量包括所述行駛方向上的縱向觀測量;和/或
7.根據權利要求6所述的方法,其特征在于,
8.一種電子設備,其特征在于,所述電子設備包括:
9.一種車輛,其特征在于,所述車輛包括如權利要求8所述的電子設備。
10.一種計算機程序產品,其特征
...【技術特征摘要】
1.一種非線性狀態空間模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述編碼器包括第一編碼器與第二編碼器;所述利用編碼器中的編碼網絡將k-1時刻的信息時間序列映射至k時刻的第一狀態量,將k時刻的信息時間序列映射至k+1時刻的第二狀態量,包括:
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
4.一種駕駛系統觀測量的預測方法,其特征在于,所述方法包括:
5.根據權利要求4所述的方法,其特征在于,所述解碼網絡與所述狀態網絡均包括輸入層、輸出層與多層隱藏層,且使用...
【專利技術屬性】
技術研發人員:孫文盛,馬聰,郭媛媛,
申請(專利權)人:北京集度科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。