控制算法手記——腿足運動控制(4)

文:文/李磊2025年第二期

 要 : 考慮到強化學習帶來的驚艷運控效果、靈活調整的訓練框架和策略網絡結構、以及仿真-訓練-部署工具鏈的成 熟,對于腿足機器人的運控是否可以All in DRL深度強化學習?基于模型的運動控制是否還有深入研究的必要呢? 這些問題已經盤亙在筆者頭腦里多時,為此本文希望從現有強化學習范式下的訓練部署框架分析,給出自己的思 考和見解,以做拋磚引玉之論。

/李磊


在前文中,重點分析了腿足機器人的運動特點,以及 對腿足機器人運動控制性能的具體需求,從控制系統的角 度進行理解,這種范式下的訓練,得到的策略網絡本質上 是一種利用海量離線數據學習到的“靜態”、“非線性”、 “最優”、“狀態反饋”控制率,考慮到強化學習帶來的驚 艷運控效果、靈活調整的訓練框架和策略網絡結構、以及 仿真-訓練-部署工具鏈的成熟,對于腿足機器人的運控是否 可以All in DRL(即:深度強化學習Deep Reinforcement Learning,DRL)?基于模型的運動控制是否還有深入研究 的必要呢?
注:近年來,隨著相關算法、仿真平臺、訓練框 架、硬件和工具鏈的成熟,深度強化學習DRL(Deep Reinforcement learning)控制方法在無人機、腿足機器 人(四足、雙足、人形等)、自動駕駛等機器人運動控制 領域展露頭角,取得了令人印象深刻的控制效果,體現出 了優越的魯棒性和泛化能力。對于這些典型的欠驅動系統 (Underactuated System),強化學習端到端(End-to- End)的控制方案正在取代基于模型的控制中(規劃-跟蹤控 制-狀態估計)分層、模塊化控制方案,成為學術界和工業 界追逐的潮流。
1 當前學習范式下運控性能特點
當前學習范式訓練得到的策略實際部署在機器人上 時相當于采用了一張巨大的查詢表格,只需少量的推理運 算計算量(查找表格)輸出控制值,其控制頻率可輕易達 50~100Hz,這比涉及到復雜非線性約束優化的MPC優秀得 多。加上,相關工具鏈的成熟和開源方案,大幅降低了應用 “門檻”,得到的靜態非線性最優狀態反饋控制率,使得采 用強化學習進行腿足機器人運動控制體現出以下性能特點:
(1)復雜手動獎勵工程,預期行為生成難
當前學習范式的訓練過程只是在無"意識"地通過策略迭 代的方式最大化累積回報,策略收斂時,僅僅表明智能體利 用特定策略梯度算法取得了當前仿真交互數據集意義下的最 優,并不對應著物理世界下的預期行為。腿足機器人可能會 學到快速拖地行走的"偷懶"行為,盡管這種行為對應著預設 獎勵函數意義下的最優,但并沒有體現出特定步態、步態頻 率、正常抬腿-擺動-落地等類似于其仿生對象自然/柔順的行 為;仿真交互數據受到初始狀態分布(如腿足機器人的初始 構型狀態)/探索-利用平衡影響,導致其離預期行為數據偏 離較遠。
為生成預期行為,人們在任務獎勵函數項時通常會加 入各類諸如抬腿高度要合適、機身姿態要平穩、關節力矩/ 速度/轉動范圍不能超出限制、關節動作不要太劇烈、能量 盡可能的小等,獎勵項往往會達到數十項之多,一些獎勵項 還相互矛盾。如何手動調節這些項的權重,以達到各項獎勵 項之間的平衡,最終生成給定的預期行為實在是一項繁雜的 工作,一般稱作獎勵工程。對于不同的大小/重量/構型的機 器人,實現這些獎勵項的難易程度不同,所需要的權重大小 也不同,對于不同類型的機器人,需要重新進行一遍獎勵工 程,重新進行訓練以生成類似的行為。
盡管獎勵工程能夠使得當前學習范式訓練收斂時生產 相對合理的行為,但如何引導、調控這種行為(如不同步 態/頻率、不同行為)仍然是一個問題。當前學習范式訓 練完成-學習完成的特性使得必須在仿真訓練過程中,將這 種預期行為(不同步態、爬樓梯等)編碼進指令里,作為 Reference,然后在訓練過程中遍歷相關行為指令,實際運 行時需要手動切換這些指令,以使得機器人產生對應的動 作。這種手動指令切換產生不同運動模式的方式是目前主流 方法,包括一些看似炸裂的市場宣傳視頻,當前學習范式并 沒有達到人們期望的自主,仍需要在仿真交互數據中編碼-遍歷-手動切換/上層訓練一個策略進行切換。在不同地形、 不同速度下的運動行為形態自主切換還依賴于對相關機制的 研究,如能量、步態穩定性理論等,然后將相關機制嵌入到 獎勵函數中去,對控制對象本身動力學特性的理解仍然起著 基礎作用。
為了腿足機器人能夠生產類似于物理世界人們預期的 行為,需要在訓練框架/過程中引入更多相關的數據,包括: 使用動捕系統獲得的仿生對象真實數據;使用基于模型的運 控算法規劃生產的數據;對相關物理量施加真實(硬)約束 等,即使用約束強化學習或者類似約束強化學習等方法,生 成更符合真實物理行為的數據;使用任務空間動作指令(如 抬腿高度、步態頻率等)等動作空間參數訓練生成策略等。 隨著預期動作要求越來越高,訓練框架/策略網絡結構將會 融合以上各個設計元素。
(2)受到擾動時的高剛度行為:無意識地在任何時候 最大化獎勵函數
Our key insight is stiff responses to perturbations are due to an agent's incentive to maximize task rewards at all times, even as perturbations are being applied.
- Deep complaint control, ICRA
(3)小范圍內的魯棒性
盡管人們可以利用參數隨機化(Domain Randomization) 等訓練技巧,使得策略不過分保守的前提下,獲得參數在小 范圍變化時的魯棒策略(如質量在正負2kg內變化),然而 這種所謂的魯棒性/自適應性是有限的,以不顯著改變狀態 轉移特性為上限(如質量變化與機身質量相近),如果超過 這一上限,強化學習本身沒有單獨的機制處理這一點(如估 計-補償機制或者參數辨識-自適應機制)。
(4)無前饋機制
當前學習范式得到的策略屬于狀態反饋控制策略,即 當外界干擾引起的變化導致狀態發生改變時(不能改變過 大),才會影響到策略輸出,對于能夠估計/觀測到的干 擾,沒有前饋機制。
(5)無安全機制
將任務獎勵同約束處理一同引入到獎勵函數, 不僅使得 獎勵函數項增多(可達數十項),而且無法保證在任何情況 下得到的策略都能滿足這些約束(因為策略是最大化所有獎 勵項的和),策略可能會生成不安全的行為。

2 結論
通過上述分析,回到最開始的問題,盡管DRL深度強化 學習具有著巨大的應用潛力,然而當前學習范式的原理和性 能特點,決定了在應用時仍然需要根據性能要求和場景進行 有針對性的開發,選擇合適的訓練框架和策略結構。當前學 習范式的DRL只是提供了一種解決問題的思路,這種思路解 決問題的原理仍然存在一定的局限性(見上述分析),對于 實際應用來說,了解這種思路的局限性和性能邊界,選擇合 適的技術方案,并結合基于模型的控制方法相關思路進行完 善,是一種應該采取的態度。(待續)

7.png


中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年第一期

    2025年第一期

    伺服與運動控制

    2025年第一期

  • 2024年第六期

    2024年第六期

    伺服與運動控制

    2024年第六期

  • 2024年第五期

    2024年第五期

    伺服與運動控制

    2024年第五期

  • 2024年第四期

    2024年第四期

    伺服與運動控制

    2024年第四期

  • 2024年第三期

    2024年第三期

    伺服與運動控制

    2024年第三期