控制算法手記——腿足運動控制(5)
文:李磊2025年第三期
摘要;深度強化學(xué)習(xí)沒有“黑魔法”,動力學(xué)行為-模型-數(shù)據(jù)-控制結(jié)構(gòu)的問題一以貫之,不可偏廢。分析場景、任務(wù)和 問題本身,抓住主要矛盾仍然是行之有效的思維過程。
文/李磊
1 復(fù)雜地形下腿足運動控制的挑戰(zhàn)
如“控制算法手記——腿足運動控制(2)” 一文中所 述,復(fù)雜地形適應(yīng)性是腿足機器人相比輪履式機器人的獨 特優(yōu)勢,然而復(fù)雜地形通常是未知或者難以準確觀測/估計 的,主要體現(xiàn)為以下三點:
· 地形幾何特性,決定通過該地形時的接觸點/面和接觸 時機,難以準確獲?。▊鞲衅饕曇跋拗?噪聲/遮擋、受自身 位姿估計影響);
· 地形物理特性,決定地面能提供的切向/法向接觸力動 態(tài)特性,難以準確估計;
· 空間三維環(huán)境,決定機身-落腳點所必須具備的關(guān)系, 受自身狀態(tài)估計和傳感器限制難以準確獲取。
另外,腿足機器人(被控對象)本身作為復(fù)雜的動力學(xué) 系統(tǒng),其動力學(xué)行為包含以下三方面非理想因素:
· 浮動基多剛體動力學(xué)系統(tǒng)-地面碰撞接觸,導(dǎo)致自身 位姿/速度間接測量(需要狀態(tài)估計,且受地形-接觸特性影 響)、間接控制,且受地形干擾的特性;
· 實際機電系統(tǒng)動力學(xué)特性在細節(jié)層面復(fù)雜化了動力學(xué) 行為,如傳感器噪聲、關(guān)節(jié)傳動特性等;
· 加工裝配誤差、負載多變、外界干擾以及不同初始狀 態(tài)進一步復(fù)雜化了動力學(xué)行為。
來自環(huán)境未知/不確定性以及被控對象本身復(fù)雜的動力 學(xué)行為,對腿足機器人運動控制造成了巨大挑戰(zhàn)。無論是強 化學(xué)習(xí)還是基于模型的方法根據(jù)不同任務(wù)下這些問題的不同 表現(xiàn),都可以進行有針對性的處理。對于強化學(xué)習(xí)來說,環(huán) 境未知/不確定性以及浮動基多剛體間接測量、間接控制的 問題,使得其所依托的MDP框架中的狀態(tài)假設(shè)不再有效:
“狀態(tài)”代表無缺失、無冗余,具有馬氏性,與環(huán)境密 切相關(guān)的信息。
如控制算法手記——腿足運動控制(3)中提到的,當前學(xué)習(xí)范式(Model-Free, Sim2Real,下文簡稱沿用)下的強 化學(xué)習(xí)在訓(xùn)練過程中學(xué)習(xí)到的是一種“靜態(tài)”非線性最優(yōu)“狀 態(tài)”反饋控制,也即算法是建立在“狀態(tài)”之上的。然而,我 們能夠知道的也只有諸如當前機身相對姿態(tài)/角速度/線性加 速度(IMU)、關(guān)節(jié)速度/位置信息以及相機坐標系中的點云 信息/深度信息,而不是地面摩擦系數(shù)、接觸力/接觸狀態(tài)、 地形幾何特性、機身位置/速度/抬腿高度等信息。由于決定 動力學(xué)過程的部分“狀態(tài)”變量未知,問題分析框架也就從 MDP退化為POMDP(部分可觀察馬爾科夫決策過程,相當 于傳統(tǒng)控制理論中問題從全狀態(tài)反饋控制變成輸出反饋控 制) ,即算法是建立在“觀察”基礎(chǔ)上的,這就打破了信息 完備條件下的優(yōu)勢:
· 當前條件下價值判斷更準確,決策依據(jù)信息更充分;
· 狀態(tài)反饋越直接,在獎勵函數(shù)中體現(xiàn)越直接,策略訓(xùn) 練效率和部署效果越好;
· 狀態(tài)完備時(表征維數(shù)更多),動作映射更精細;
· 能夠唯一確定狀態(tài)-動作間映射,避免一對多(不同 “狀態(tài)”組合可能會產(chǎn)生同樣“觀察”),能夠產(chǎn)生相近情境 下的正確區(qū)分動作。
既然上述因素對算法性能十分重要,那我們自然希望:
· 盡可能準確判斷價值,以輔助正確計算策略梯度,找 到最優(yōu)策略;
· 盡可能從已有的“觀察序列”重建“狀態(tài)”信息,或者 利用正逆向模型,實時感知環(huán)境變化,保證狀態(tài)-動作映射 的精確和唯一性以及策略訓(xùn)練部署性能;
· 盡可能考慮非理想因素帶來的影響,保證仿真訓(xùn)練學(xué) 習(xí)的策略貼近實際。
實際上,上述三方面的考慮構(gòu)成了使用DRL深度強化學(xué) 習(xí)進行運控算法設(shè)計、訓(xùn)練和部署時的重要依據(jù)(圖1)。
2 當前學(xué)習(xí)范式下DRL 腿足運控算法策略結(jié)構(gòu)
如圖1所示,結(jié)合上述分 析,當前范式下DRL腿足運控算 法訓(xùn)練部署,要考慮下述兩方 面因素。
(1)(仿真)特權(quán)信息利 用——盡可能準確判斷價值,提 供充分依據(jù)找到最優(yōu)策略
Actor-Critic策略梯度架 構(gòu)+PPO策略優(yōu)化算法是當前使 用DRL進行腿足運控的主流方 式??紤]到當前學(xué)習(xí)范式下在 仿真環(huán)境中進行策略訓(xùn)練,在訓(xùn)練過程中,仿真環(huán)境可以提供完備信息(相關(guān)地形參數(shù)、 干擾力、速度是提前設(shè)置的,可以準確獲取,接觸狀態(tài)/接 觸力/機身速度/抬腿高度可以通過物理學(xué)引擎解算,這些參 數(shù)還能夠獲得準確的時間對齊,且延遲較低),因此在建模 準確的前提下可以利用仿真環(huán)境提供的相關(guān)真值(“Ground Truth”)組成信息完備的“狀態(tài)”。因為該“狀態(tài)”信息是仿 真環(huán)境中特有的,該信息又被稱為“特權(quán)信息”?!疤貦?quán)信 息”的引入在仿真訓(xùn)練過程中,能夠為Actor網(wǎng)絡(luò)提供準確的 優(yōu)勢函數(shù)以輔助計算策略梯度。取決于是否將該特權(quán)信息引 入Actor中以學(xué)習(xí),可將特權(quán)信息的利用分為三大類:
· Teacher-Student架構(gòu):即將特權(quán)信息接入Actor網(wǎng)絡(luò) 和Critic網(wǎng)絡(luò),相當于上帝視角下學(xué)習(xí)到到一個表現(xiàn)很好的 策略(“完美狀態(tài)”-動作映射),然后在部分可觀察條件 下,使用模仿/監(jiān)督學(xué)習(xí)訓(xùn)練一個Student網(wǎng)絡(luò),將Teacher 策略網(wǎng)絡(luò)學(xué)到的“完美”映射傳遞給Student策略網(wǎng)絡(luò),實際 Student策略網(wǎng)絡(luò)接受部分可觀察信息,通過編碼器等形式 重建或者部分重建狀態(tài)信息(見下節(jié)介紹);這種兩階段訓(xùn) 練過程大幅降低了部分可觀察條件下的策略的訓(xùn)練難度,并 貫穿在ETH系列強化學(xué)習(xí)論文中,然而也面臨著以下問題:
Sequentially training the teacher and student networks is data inefficient. The student policy might be unable to explore failure states in which the teacher policy has learned in the early stage of learning using RL. This limitation is because, during BC, the studentpolicy is only provided with good action supervision from the teacher policy. ——DreamWaQ
· Asymmetric Actor-Critic架構(gòu):即只將特權(quán)信息引入 到Critic網(wǎng)絡(luò)中去,Actor網(wǎng)絡(luò)接受部分可觀察信息,并結(jié)合 重建“狀態(tài)”信息,輸出動作決策;
· 最近提出來的Concurrent Teacher-Student架構(gòu)處于 兩者之間,其融合了Teacher-Student架構(gòu)和Asymmetric Actor-Critic架構(gòu)的優(yōu)勢,即單階段訓(xùn)練,但Actor也可使 用特權(quán)信息。在Teacher學(xué)習(xí)的過程中Student同步學(xué)習(xí) Teacher策略以及相關(guān)狀態(tài)編碼信息(即使Teacher生成的 動作不完美)。具體實現(xiàn)上,Teacher和Student使用一組 Actor-Critic網(wǎng)絡(luò),均使用強化學(xué)習(xí)進行訓(xùn)練(Student訓(xùn)練 的目的也是為了最大化獎勵,而不是盡可能地像Teacher策 略),只是在并行Agent劃分上,一部分屬于Teacher(比 例更大以便能夠盡快學(xué)習(xí)策略),一部分屬于Student。
因此,在仿真訓(xùn)練環(huán)節(jié),應(yīng)該合理、充分利用特權(quán)信息, 以盡可能準確判斷價值,提供充分依據(jù)找到真正最優(yōu)策略。
(2)從已有的“觀察序列”重建“狀態(tài)”信息
地形環(huán)境影響機器人狀態(tài)及其估計和控制動作,機器人 狀態(tài)估計通過里程計、位姿影響視覺感知(視覺坐標系)。 環(huán)境越復(fù)雜多變,“狀態(tài)”分布在空間上越廣泛/密集,從 “觀察序列”精確重建“狀態(tài)”越必要,從而使得策略網(wǎng)絡(luò)接 受到的“狀態(tài)”能夠準確反映當前條件的變化,保證了“觀 察”-“狀態(tài)”-動作的準確映射,實現(xiàn)在復(fù)雜地形上穩(wěn)定可靠通過。按照任務(wù)復(fù)雜程度,可考慮以下狀態(tài):
· 地形/環(huán)境信息;
· 機身狀態(tài)估計信息;
· 地形信息-機身狀態(tài)融合估計;
· 地形/環(huán)境信息-機身狀態(tài)-視覺信息融合。
前三種主要應(yīng)用于盲走,后一種主要適應(yīng)于視覺強化學(xué) 習(xí),能夠適應(yīng)的地形逐漸復(fù)雜(事實上,后面兩種狀態(tài)重構(gòu) 已經(jīng)分別成為目前盲走和視覺行走的SOTA算法),這也體 現(xiàn)了當前學(xué)習(xí)范式的演進過程。值得注意的是,如果對于某 種環(huán)境/任務(wù),某個狀態(tài)/獎勵項相對重要,也可以考慮重建 “狀態(tài)”(如抬腿高度、足端力等) ,以保證獎勵項在訓(xùn)練 過程中能夠充分體現(xiàn),這體現(xiàn)了DRL框架設(shè)計“狀態(tài)-動作- 獎勵”的協(xié)同設(shè)計思想。
考慮到不同“狀態(tài)”組合可能會產(chǎn)生同樣“觀察”,而 可使用的觀察較為有限(主要包括IMU、機身關(guān)節(jié)以及視覺 信息如深度圖、點云等)以及"觀察"噪聲,因此在使用“觀 察序列”重建"狀態(tài)"信息時,需要選擇合適的監(jiān)督信息、網(wǎng) 絡(luò)結(jié)構(gòu)和訓(xùn)練學(xué)習(xí)方式,如使用對比學(xué)習(xí)、變分自動編碼器 VAE以及地形重構(gòu)等模塊。
3 Sim2Real:精確建模與物理量對齊
當前學(xué)習(xí)范式下,因為仿真訓(xùn)練學(xué)習(xí)階段完成后,學(xué)習(xí) 到的策略便成了一個靜態(tài)策略,如何保證在仿真訓(xùn)練階段學(xué) 習(xí)到策略在實際部署中同樣有效?這就需要在:
· 建模仿真階段:盡可能地對當前任務(wù)設(shè)定下,任何影 響實際動力學(xué)行為/性能目標的因素進行準確建模,做到實 際中的任務(wù)環(huán)境設(shè)置和發(fā)生的物理過程是什么樣,仿真中就 是什么樣;
· 部署測試階段:實際部署條件盡可能與仿真環(huán)境中設(shè) 置的一致,做到仿真是什么樣,實際部署是就是什么樣。
尤其在建模仿真階段,特別需要考慮機電系統(tǒng)的實際特性 并仔細評估其對動力學(xué)過程的影響。如果其占據(jù)主導(dǎo)因素,那 一定要在仿真中體現(xiàn),特別是一些容易忽略的因素(如電機扭 矩飽和、實際重心位置、視覺傳感器實際噪聲特性、傳動系統(tǒng) 的摩擦、與環(huán)境的實際接觸碰撞過程),不能無腦依賴參數(shù)隨 機化減小Sim2Real Gap;從另一方面來說,在機電系統(tǒng)設(shè)計 過程中,也應(yīng)該盡量考慮這些非理想因素對控制算法的影響, 如在控制算法手記——什么讓控制算法復(fù)雜化?
綜上所述,一個良好設(shè)計的機電系統(tǒng)可以大幅簡化控制 算法設(shè)計及部署測試,對于強化學(xué)習(xí)同樣有效,這就需要機 電系統(tǒng)工程與算法工程師的密切協(xié)同。
4 總結(jié)
如同在“控制算法手記——先學(xué)習(xí)系統(tǒng)動力學(xué)建模和分 析”一文中所述,無論采用何種控制方法,首先還是應(yīng)該從 問題本身出發(fā),從動力學(xué)行為的角度分析主要矛盾并確定相 關(guān)應(yīng)對思路,運用DRL深度強化學(xué)習(xí)進行腿足運動控制無疑 也要遵循這一思路。本文從復(fù)雜地形上腿足運動控制面臨的 挑戰(zhàn)出發(fā),分析其主要矛盾并歸納整理現(xiàn)有DRL框架下的處 理方法。此外,還有其他諸多細節(jié),如動作空間的設(shè)計、與 模型的結(jié)合等限于篇幅,不再贅述。最后,需要強調(diào)的是, 盡管DRL相關(guān)工具鏈的成熟降低了應(yīng)用“門檻”,但使用DRL 做好、做優(yōu)腿足運控,保證其實際應(yīng)用性能,以切實產(chǎn)生應(yīng) 用價值,仍然需要下一番細功夫。
中傳動網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.y3602.cn)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

掃碼關(guān)注小程序
時刻關(guān)注行業(yè)動態(tài)

- 8資訊在線

填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運動控制
- 伺服系統(tǒng)
- 機器視覺
- 機械傳動
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機器人
- 低壓電器
- 機柜