控制算法手記——腿足運(yùn)動(dòng)控制(5)
文:李磊2025年第三期
摘要;深度強(qiáng)化學(xué)習(xí)沒(méi)有“黑魔法”,動(dòng)力學(xué)行為-模型-數(shù)據(jù)-控制結(jié)構(gòu)的問(wèn)題一以貫之,不可偏廢。分析場(chǎng)景、任務(wù)和 問(wèn)題本身,抓住主要矛盾仍然是行之有效的思維過(guò)程。
文/李磊
1 復(fù)雜地形下腿足運(yùn)動(dòng)控制的挑戰(zhàn)
如“控制算法手記——腿足運(yùn)動(dòng)控制(2)” 一文中所 述,復(fù)雜地形適應(yīng)性是腿足機(jī)器人相比輪履式機(jī)器人的獨(dú) 特優(yōu)勢(shì),然而復(fù)雜地形通常是未知或者難以準(zhǔn)確觀測(cè)/估計(jì) 的,主要體現(xiàn)為以下三點(diǎn):
· 地形幾何特性,決定通過(guò)該地形時(shí)的接觸點(diǎn)/面和接觸 時(shí)機(jī),難以準(zhǔn)確獲取(傳感器視野限制/噪聲/遮擋、受自身 位姿估計(jì)影響);
· 地形物理特性,決定地面能提供的切向/法向接觸力動(dòng) 態(tài)特性,難以準(zhǔn)確估計(jì);
· 空間三維環(huán)境,決定機(jī)身-落腳點(diǎn)所必須具備的關(guān)系, 受自身狀態(tài)估計(jì)和傳感器限制難以準(zhǔn)確獲取。
另外,腿足機(jī)器人(被控對(duì)象)本身作為復(fù)雜的動(dòng)力學(xué) 系統(tǒng),其動(dòng)力學(xué)行為包含以下三方面非理想因素:
· 浮動(dòng)基多剛體動(dòng)力學(xué)系統(tǒng)-地面碰撞接觸,導(dǎo)致自身 位姿/速度間接測(cè)量(需要狀態(tài)估計(jì),且受地形-接觸特性影 響)、間接控制,且受地形干擾的特性;
· 實(shí)際機(jī)電系統(tǒng)動(dòng)力學(xué)特性在細(xì)節(jié)層面復(fù)雜化了動(dòng)力學(xué) 行為,如傳感器噪聲、關(guān)節(jié)傳動(dòng)特性等;
· 加工裝配誤差、負(fù)載多變、外界干擾以及不同初始狀 態(tài)進(jìn)一步復(fù)雜化了動(dòng)力學(xué)行為。
來(lái)自環(huán)境未知/不確定性以及被控對(duì)象本身復(fù)雜的動(dòng)力 學(xué)行為,對(duì)腿足機(jī)器人運(yùn)動(dòng)控制造成了巨大挑戰(zhàn)。無(wú)論是強(qiáng) 化學(xué)習(xí)還是基于模型的方法根據(jù)不同任務(wù)下這些問(wèn)題的不同 表現(xiàn),都可以進(jìn)行有針對(duì)性的處理。對(duì)于強(qiáng)化學(xué)習(xí)來(lái)說(shuō),環(huán) 境未知/不確定性以及浮動(dòng)基多剛體間接測(cè)量、間接控制的 問(wèn)題,使得其所依托的MDP框架中的狀態(tài)假設(shè)不再有效:
“狀態(tài)”代表無(wú)缺失、無(wú)冗余,具有馬氏性,與環(huán)境密 切相關(guān)的信息。
如控制算法手記——腿足運(yùn)動(dòng)控制(3)中提到的,當(dāng)前學(xué)習(xí)范式(Model-Free, Sim2Real,下文簡(jiǎn)稱(chēng)沿用)下的強(qiáng) 化學(xué)習(xí)在訓(xùn)練過(guò)程中學(xué)習(xí)到的是一種“靜態(tài)”非線(xiàn)性最優(yōu)“狀 態(tài)”反饋控制,也即算法是建立在“狀態(tài)”之上的。然而,我 們能夠知道的也只有諸如當(dāng)前機(jī)身相對(duì)姿態(tài)/角速度/線(xiàn)性加 速度(IMU)、關(guān)節(jié)速度/位置信息以及相機(jī)坐標(biāo)系中的點(diǎn)云 信息/深度信息,而不是地面摩擦系數(shù)、接觸力/接觸狀態(tài)、 地形幾何特性、機(jī)身位置/速度/抬腿高度等信息。由于決定 動(dòng)力學(xué)過(guò)程的部分“狀態(tài)”變量未知,問(wèn)題分析框架也就從 MDP退化為POMDP(部分可觀察馬爾科夫決策過(guò)程,相當(dāng) 于傳統(tǒng)控制理論中問(wèn)題從全狀態(tài)反饋控制變成輸出反饋控 制) ,即算法是建立在“觀察”基礎(chǔ)上的,這就打破了信息 完備條件下的優(yōu)勢(shì):
· 當(dāng)前條件下價(jià)值判斷更準(zhǔn)確,決策依據(jù)信息更充分;
· 狀態(tài)反饋越直接,在獎(jiǎng)勵(lì)函數(shù)中體現(xiàn)越直接,策略訓(xùn) 練效率和部署效果越好;
· 狀態(tài)完備時(shí)(表征維數(shù)更多),動(dòng)作映射更精細(xì);
· 能夠唯一確定狀態(tài)-動(dòng)作間映射,避免一對(duì)多(不同 “狀態(tài)”組合可能會(huì)產(chǎn)生同樣“觀察”),能夠產(chǎn)生相近情境 下的正確區(qū)分動(dòng)作。
既然上述因素對(duì)算法性能十分重要,那我們自然希望:
· 盡可能準(zhǔn)確判斷價(jià)值,以輔助正確計(jì)算策略梯度,找 到最優(yōu)策略;
· 盡可能從已有的“觀察序列”重建“狀態(tài)”信息,或者 利用正逆向模型,實(shí)時(shí)感知環(huán)境變化,保證狀態(tài)-動(dòng)作映射 的精確和唯一性以及策略訓(xùn)練部署性能;
· 盡可能考慮非理想因素帶來(lái)的影響,保證仿真訓(xùn)練學(xué) 習(xí)的策略貼近實(shí)際。
實(shí)際上,上述三方面的考慮構(gòu)成了使用DRL深度強(qiáng)化學(xué) 習(xí)進(jìn)行運(yùn)控算法設(shè)計(jì)、訓(xùn)練和部署時(shí)的重要依據(jù)(圖1)。
2 當(dāng)前學(xué)習(xí)范式下DRL 腿足運(yùn)控算法策略結(jié)構(gòu)
如圖1所示,結(jié)合上述分 析,當(dāng)前范式下DRL腿足運(yùn)控算 法訓(xùn)練部署,要考慮下述兩方 面因素。
(1)(仿真)特權(quán)信息利 用——盡可能準(zhǔn)確判斷價(jià)值,提 供充分依據(jù)找到最優(yōu)策略
Actor-Critic策略梯度架 構(gòu)+PPO策略?xún)?yōu)化算法是當(dāng)前使 用DRL進(jìn)行腿足運(yùn)控的主流方 式。考慮到當(dāng)前學(xué)習(xí)范式下在 仿真環(huán)境中進(jìn)行策略訓(xùn)練,在訓(xùn)練過(guò)程中,仿真環(huán)境可以提供完備信息(相關(guān)地形參數(shù)、 干擾力、速度是提前設(shè)置的,可以準(zhǔn)確獲取,接觸狀態(tài)/接 觸力/機(jī)身速度/抬腿高度可以通過(guò)物理學(xué)引擎解算,這些參 數(shù)還能夠獲得準(zhǔn)確的時(shí)間對(duì)齊,且延遲較低),因此在建模 準(zhǔn)確的前提下可以利用仿真環(huán)境提供的相關(guān)真值(“Ground Truth”)組成信息完備的“狀態(tài)”。因?yàn)樵摗盃顟B(tài)”信息是仿 真環(huán)境中特有的,該信息又被稱(chēng)為“特權(quán)信息”。“特權(quán)信 息”的引入在仿真訓(xùn)練過(guò)程中,能夠?yàn)锳ctor網(wǎng)絡(luò)提供準(zhǔn)確的 優(yōu)勢(shì)函數(shù)以輔助計(jì)算策略梯度。取決于是否將該特權(quán)信息引 入Actor中以學(xué)習(xí),可將特權(quán)信息的利用分為三大類(lèi):
· Teacher-Student架構(gòu):即將特權(quán)信息接入Actor網(wǎng)絡(luò) 和Critic網(wǎng)絡(luò),相當(dāng)于上帝視角下學(xué)習(xí)到到一個(gè)表現(xiàn)很好的 策略(“完美狀態(tài)”-動(dòng)作映射),然后在部分可觀察條件 下,使用模仿/監(jiān)督學(xué)習(xí)訓(xùn)練一個(gè)Student網(wǎng)絡(luò),將Teacher 策略網(wǎng)絡(luò)學(xué)到的“完美”映射傳遞給Student策略網(wǎng)絡(luò),實(shí)際 Student策略網(wǎng)絡(luò)接受部分可觀察信息,通過(guò)編碼器等形式 重建或者部分重建狀態(tài)信息(見(jiàn)下節(jié)介紹);這種兩階段訓(xùn) 練過(guò)程大幅降低了部分可觀察條件下的策略的訓(xùn)練難度,并 貫穿在ETH系列強(qiáng)化學(xué)習(xí)論文中,然而也面臨著以下問(wèn)題:
Sequentially training the teacher and student networks is data inefficient. The student policy might be unable to explore failure states in which the teacher policy has learned in the early stage of learning using RL. This limitation is because, during BC, the studentpolicy is only provided with good action supervision from the teacher policy. ——DreamWaQ
· Asymmetric Actor-Critic架構(gòu):即只將特權(quán)信息引入 到Critic網(wǎng)絡(luò)中去,Actor網(wǎng)絡(luò)接受部分可觀察信息,并結(jié)合 重建“狀態(tài)”信息,輸出動(dòng)作決策;
· 最近提出來(lái)的Concurrent Teacher-Student架構(gòu)處于 兩者之間,其融合了Teacher-Student架構(gòu)和Asymmetric Actor-Critic架構(gòu)的優(yōu)勢(shì),即單階段訓(xùn)練,但Actor也可使 用特權(quán)信息。在Teacher學(xué)習(xí)的過(guò)程中Student同步學(xué)習(xí) Teacher策略以及相關(guān)狀態(tài)編碼信息(即使Teacher生成的 動(dòng)作不完美)。具體實(shí)現(xiàn)上,Teacher和Student使用一組 Actor-Critic網(wǎng)絡(luò),均使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練(Student訓(xùn)練 的目的也是為了最大化獎(jiǎng)勵(lì),而不是盡可能地像Teacher策 略),只是在并行Agent劃分上,一部分屬于Teacher(比 例更大以便能夠盡快學(xué)習(xí)策略),一部分屬于Student。
因此,在仿真訓(xùn)練環(huán)節(jié),應(yīng)該合理、充分利用特權(quán)信息, 以盡可能準(zhǔn)確判斷價(jià)值,提供充分依據(jù)找到真正最優(yōu)策略。
(2)從已有的“觀察序列”重建“狀態(tài)”信息
地形環(huán)境影響機(jī)器人狀態(tài)及其估計(jì)和控制動(dòng)作,機(jī)器人 狀態(tài)估計(jì)通過(guò)里程計(jì)、位姿影響視覺(jué)感知(視覺(jué)坐標(biāo)系)。 環(huán)境越復(fù)雜多變,“狀態(tài)”分布在空間上越廣泛/密集,從 “觀察序列”精確重建“狀態(tài)”越必要,從而使得策略網(wǎng)絡(luò)接 受到的“狀態(tài)”能夠準(zhǔn)確反映當(dāng)前條件的變化,保證了“觀 察”-“狀態(tài)”-動(dòng)作的準(zhǔn)確映射,實(shí)現(xiàn)在復(fù)雜地形上穩(wěn)定可靠通過(guò)。按照任務(wù)復(fù)雜程度,可考慮以下?tīng)顟B(tài):
· 地形/環(huán)境信息;
· 機(jī)身狀態(tài)估計(jì)信息;
· 地形信息-機(jī)身狀態(tài)融合估計(jì);
· 地形/環(huán)境信息-機(jī)身狀態(tài)-視覺(jué)信息融合。
前三種主要應(yīng)用于盲走,后一種主要適應(yīng)于視覺(jué)強(qiáng)化學(xué) 習(xí),能夠適應(yīng)的地形逐漸復(fù)雜(事實(shí)上,后面兩種狀態(tài)重構(gòu) 已經(jīng)分別成為目前盲走和視覺(jué)行走的SOTA算法),這也體 現(xiàn)了當(dāng)前學(xué)習(xí)范式的演進(jìn)過(guò)程。值得注意的是,如果對(duì)于某 種環(huán)境/任務(wù),某個(gè)狀態(tài)/獎(jiǎng)勵(lì)項(xiàng)相對(duì)重要,也可以考慮重建 “狀態(tài)”(如抬腿高度、足端力等) ,以保證獎(jiǎng)勵(lì)項(xiàng)在訓(xùn)練 過(guò)程中能夠充分體現(xiàn),這體現(xiàn)了DRL框架設(shè)計(jì)“狀態(tài)-動(dòng)作- 獎(jiǎng)勵(lì)”的協(xié)同設(shè)計(jì)思想。
考慮到不同“狀態(tài)”組合可能會(huì)產(chǎn)生同樣“觀察”,而 可使用的觀察較為有限(主要包括IMU、機(jī)身關(guān)節(jié)以及視覺(jué) 信息如深度圖、點(diǎn)云等)以及"觀察"噪聲,因此在使用“觀 察序列”重建"狀態(tài)"信息時(shí),需要選擇合適的監(jiān)督信息、網(wǎng) 絡(luò)結(jié)構(gòu)和訓(xùn)練學(xué)習(xí)方式,如使用對(duì)比學(xué)習(xí)、變分自動(dòng)編碼器 VAE以及地形重構(gòu)等模塊。
3 Sim2Real:精確建模與物理量對(duì)齊
當(dāng)前學(xué)習(xí)范式下,因?yàn)榉抡嬗?xùn)練學(xué)習(xí)階段完成后,學(xué)習(xí) 到的策略便成了一個(gè)靜態(tài)策略,如何保證在仿真訓(xùn)練階段學(xué) 習(xí)到策略在實(shí)際部署中同樣有效?這就需要在:
· 建模仿真階段:盡可能地對(duì)當(dāng)前任務(wù)設(shè)定下,任何影 響實(shí)際動(dòng)力學(xué)行為/性能目標(biāo)的因素進(jìn)行準(zhǔn)確建模,做到實(shí) 際中的任務(wù)環(huán)境設(shè)置和發(fā)生的物理過(guò)程是什么樣,仿真中就 是什么樣;
· 部署測(cè)試階段:實(shí)際部署條件盡可能與仿真環(huán)境中設(shè) 置的一致,做到仿真是什么樣,實(shí)際部署是就是什么樣。
尤其在建模仿真階段,特別需要考慮機(jī)電系統(tǒng)的實(shí)際特性 并仔細(xì)評(píng)估其對(duì)動(dòng)力學(xué)過(guò)程的影響。如果其占據(jù)主導(dǎo)因素,那 一定要在仿真中體現(xiàn),特別是一些容易忽略的因素(如電機(jī)扭 矩飽和、實(shí)際重心位置、視覺(jué)傳感器實(shí)際噪聲特性、傳動(dòng)系統(tǒng) 的摩擦、與環(huán)境的實(shí)際接觸碰撞過(guò)程),不能無(wú)腦依賴(lài)參數(shù)隨 機(jī)化減小Sim2Real Gap;從另一方面來(lái)說(shuō),在機(jī)電系統(tǒng)設(shè)計(jì) 過(guò)程中,也應(yīng)該盡量考慮這些非理想因素對(duì)控制算法的影響, 如在控制算法手記——什么讓控制算法復(fù)雜化?
綜上所述,一個(gè)良好設(shè)計(jì)的機(jī)電系統(tǒng)可以大幅簡(jiǎn)化控制 算法設(shè)計(jì)及部署測(cè)試,對(duì)于強(qiáng)化學(xué)習(xí)同樣有效,這就需要機(jī) 電系統(tǒng)工程與算法工程師的密切協(xié)同。
4 總結(jié)
如同在“控制算法手記——先學(xué)習(xí)系統(tǒng)動(dòng)力學(xué)建模和分 析”一文中所述,無(wú)論采用何種控制方法,首先還是應(yīng)該從 問(wèn)題本身出發(fā),從動(dòng)力學(xué)行為的角度分析主要矛盾并確定相 關(guān)應(yīng)對(duì)思路,運(yùn)用DRL深度強(qiáng)化學(xué)習(xí)進(jìn)行腿足運(yùn)動(dòng)控制無(wú)疑 也要遵循這一思路。本文從復(fù)雜地形上腿足運(yùn)動(dòng)控制面臨的 挑戰(zhàn)出發(fā),分析其主要矛盾并歸納整理現(xiàn)有DRL框架下的處 理方法。此外,還有其他諸多細(xì)節(jié),如動(dòng)作空間的設(shè)計(jì)、與 模型的結(jié)合等限于篇幅,不再贅述。最后,需要強(qiáng)調(diào)的是, 盡管DRL相關(guān)工具鏈的成熟降低了應(yīng)用“門(mén)檻”,但使用DRL 做好、做優(yōu)腿足運(yùn)控,保證其實(shí)際應(yīng)用性能,以切實(shí)產(chǎn)生應(yīng) 用價(jià)值,仍然需要下一番細(xì)功夫。
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.hysjfh.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)



填寫(xiě)郵件地址,訂閱更多資訊:
撥打電話(huà)咨詢(xún):13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動(dòng)控制
- 伺服系統(tǒng)
- 機(jī)器視覺(jué)
- 機(jī)械傳動(dòng)
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜