【技術實現步驟摘要】
本專利技術涉及四足機器人運動規劃,尤其涉及一種基于深度視覺的四足機器人強化學習運動規劃方法及系統。
技術介紹
1、本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
信息,不必然構成在先技術。
2、相較于輪式機器人,四足機器人在復雜崎嶇地形中具有更大的優勢。這是因為四足機器人能夠根據地形環境動態地調整落足點位置,從而更好地應對崎嶇、不規則或動態變化的地形。因此,四足機器人在山區、城市廢墟、救援任務和戶外探險等多種復雜場景中的應用前景廣泛。然而,基于外部感知的四足機器人的運動規劃仍然是一個極具挑戰性的任務,運動規劃器需要處理大量的感知數據并進行復雜的計算和決策,以保證機器人能夠在動態變化的環境中順利移動。
3、近年來,隨著深度學習和強化學習技術的發展,四足機器人運動規劃的研究取得了顯著進展。通過基于學習的方法進行運動規劃和控制,能夠使機器人在無需人工干預的情況下自主進行探索和學習,從而實現更加靈活的運動能力。這類方法不僅有助于機器人在已知環境中完成任務,還能夠提高機器人在未知環境中適應變化的能力,尤其是在復雜地形和不可預見的環境條件下。然而,盡管強化學習為四足機器人提供了強大的自主學習能力,現有的四足機器人運動規劃方法在實際應用中仍面臨著一系列問題。
4、在面向復雜地形,特別是不規則樓梯地形的四足機器人強化學習運動規劃中,現有方法通常存在地形訓練適應性差、學習效率低以及過度依賴人為指定行進方向等問題,無法有效應對樓梯環境中的動態挑戰,導致機器人自主決策和適應能力不足。因此,如何有效學習不規則樓梯地
技術實現思路
1、針對現有技術存在的不足,本專利技術的目的是提供一種基于深度視覺的四足機器人強化學習運動規劃方法及系統,在不規則樓梯環境中的運動規劃任務中加入視覺感知模塊,機器人能夠從視覺信息中獲取地形信息、自主預測航向并規劃動作。
2、為了實現上述目的,本專利技術是通過如下的技術方案來實現:
3、本專利技術第一方面提供了一種基于深度視覺的四足機器人強化學習運動規劃方法,包括以下步驟:
4、搭建仿真環境,對不同坡度樓梯地形進行建模,得到樓梯地形模型,對機器人動力學參數建模,得到機器人模型,其中,樓梯地形模型包括不同難度差異的樓梯地形;
5、加載機器人模型在樓梯地形模型中運動,對機器人運動狀況進行跟蹤,得到速度跟蹤效果,其中,通過機器人在運動過程中對教師策略網絡輸出的關節扭矩值和對應的運動線速度進行策略評價得到速度跟蹤效果;
6、對速度跟蹤效果進行評估,根據評估結果適應性調整樓梯地形模型中的環境參數。
7、進一步的,加載機器人模型在樓梯地形模型中運動,對機器人運動狀況進行跟蹤的具體步驟為:
8、獲取機器人深度視覺信息和機器人本體感知信息;
9、根據機器人深度視覺信息重建局部高度地圖;
10、利用教師策略網絡對局部高度地圖、機器人本體感知信息和特權信息進行處理,得到機器人各關節扭矩值,各關節扭矩值結合運動線速度進行策略評價,得到速度跟蹤效果。
11、進一步的,根據機器人深度視覺信息重建局部高度地圖的具體步驟為:
12、獲取初始三維點云數據,對初始三維點云數據進行濾波和坐標轉換處理后,通過投影和雙線性插值算法生成局部二維高度圖作為局部高度地圖。
13、進一步的,利用教師策略網絡對局部高度地圖、機器人本體感知信息和特權信息進行處理的具體步驟為:
14、構建教師策略網絡;
15、對教師策略網絡基于強化學習進行訓練,得到訓練后的教師策略網絡;
16、利用教師策略網絡對局部高度地圖、機器人本體感知信息和特權信息進行處理,得到機器人各關節扭矩值。
17、進一步的,對教師策略網絡基于強化學習進行訓練的具體步驟為:
18、利用多層感知器進行教師策略的訓練;
19、搭建有監督的強化學習訓練框架,從訓練后的教師策略網絡中蒸餾出學生策略網絡。
20、進一步的,各關節扭矩值結合運動線速度進行策略評價的具體步驟為:
21、將教師策略網絡輸出的機器人腿部各關節扭矩值與對應的運動線速度輸入到策略評價網絡中,通過策略評價網絡的獎勵信號生成機器人在復雜地形中的運動決策作為速度跟蹤效果。
22、進一步的,對速度跟蹤效果進行評估,根據評估結果適應性調整樓梯地形模型中的環境參數的具體步驟為:
23、在每輪訓練結束時,計算機器人運動的實際速度與目標速度之間的根均方誤差,若根均方誤差低于預設閾值,提升地形難度信號,若高于閾值,則降低地形難度信號,否則,保持當前地形難度信號。
24、本專利技術第二方面提供了一種基于深度視覺的四足機器人強化學習運動規劃系統,包括:
25、仿真搭建模塊,被配置為搭建仿真環境,對不同坡度樓梯地形進行建模,得到樓梯地形模型,對機器人動力學參數建模,得到機器人模型,其中,樓梯地形模型包括不同難度差異的樓梯地形;
26、運動跟蹤模塊,被配置為加載機器人模型在樓梯地形模型中運動,對機器人運動狀況進行跟蹤,得到速度跟蹤效果,其中,通過機器人在運動過程中對教師策略網絡輸出的關節扭矩值和對應的運動線速度進行策略評價得到速度跟蹤效果;
27、效果評估模塊,被配置為對速度跟蹤效果進行評估,根據評估結果適應性調整樓梯地形模型中的環境參數。
28、本專利技術第三方面提供了一種介質,其上存儲有程序,該程序被處理器執行時實現如本專利技術第一方面所述的基于深度視覺的四足機器人強化學習運動規劃方法中的步驟。
29、本專利技術第四方面提供了一種設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序,所述處理器執行所述程序時實現如本專利技術第一方面所述的基于深度視覺的四足機器人強化學習運動規劃方法中的步驟。
30、以上一個或多個技術方案存在以下有益效果:
31、本專利技術公開了一種基于深度視覺的四足機器人強化學習運動規劃方法及系統,首先基于四足機器人搭載的深度相機獲取的三維點云數據,構建以機器人為中心的局部高度地圖,并結合本體感知信息(如關節位置、速度、角速度等)以及其他特權信息(如地形摩擦系數、目標路徑點等)作為輸入,訓練教師策略;教師策略采用無模型強化學習方法,通過局部高度地圖和本體感知信息的支持,輸出適當的腿部關節扭矩;在訓練過程中,采用雙重蒸餾訓練框架,通過教師-學生模型的知識傳遞,有效提高了訓練效率并降低了系統部署成本;學生策略通過學習教師策略的行為,逐步優化其運動決策過程,實現機器人在復雜地形中的高效運動控制;為提高訓練過程的效率與適應性,加入地形課程提升模塊,動態調整訓練的地形難度,確保機器人在更高難度的地形中進行學習,避免過早訓練飽和,并根據機器人表現調整地形難度,保證訓練的逐步遞進;局部高度地圖和本體感知信息在訓練過程中實時本文檔來自技高網...
【技術保護點】
1.一種基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,包括以下步驟:
2.如權利要求1所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,加載機器人模型在樓梯地形模型中運動,對機器人運動狀況進行跟蹤的具體步驟為:
3.如權利要求2所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,根據機器人深度視覺信息重建局部高度地圖的具體步驟為:
4.如權利要求2所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,利用教師策略網絡對局部高度地圖、機器人本體感知信息和特權信息進行處理的具體步驟為:
5.如權利要求4所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,對教師策略網絡基于強化學習進行訓練的具體步驟為:
6.如權利要求4所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,各關節扭矩值結合運動線速度進行策略評價的具體步驟為:
7.如權利要求1所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,對速度跟蹤效果進行評估,根據評估結果適應性
8.一種基于深度視覺的四足機器人強化學習運動規劃系統,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,其中存儲有多條指令,所述指令適于由終端設備的處理器加載并執行權利要求1-7中任一項所述的基于深度視覺的四足機器人強化學習運動規劃方法。
10.一種終端設備,其特征在于,包括處理器和計算機可讀存儲介質,處理器用于實現各指令;計算機可讀存儲介質用于存儲多條指令,所述指令適于由處理器加載并執行權利要求1-7中任一項所述的基于深度視覺的四足機器人強化學習運動規劃方法。
...【技術特征摘要】
1.一種基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,包括以下步驟:
2.如權利要求1所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,加載機器人模型在樓梯地形模型中運動,對機器人運動狀況進行跟蹤的具體步驟為:
3.如權利要求2所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,根據機器人深度視覺信息重建局部高度地圖的具體步驟為:
4.如權利要求2所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,利用教師策略網絡對局部高度地圖、機器人本體感知信息和特權信息進行處理的具體步驟為:
5.如權利要求4所述的基于深度視覺的四足機器人強化學習運動規劃方法,其特征在于,對教師策略網絡基于強化學習進行訓練的具體步驟為:
6.如權利要求4所述的基于深度視覺的四足機器人強化...
【專利技術屬性】
技術研發人員:張勤,李舒欣,靖大亮,羅闖,李龍翔,
申請(專利權)人:濟南大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。