如何在模型未知時實現對機器人的控制這一問題的研究對機器人理論的發展和機器人控制理論在實踐中的應用都具有重要的意義。本文提出一種基于神經網絡機器人模型辨識的迭代學習智能控制方法。仿真表明該方法具有滿意的效果。
1 前言
作為在現代控制理論鼎盛時期問世的機器人,其控制技術的成長與現代控制理論的發展有著密切的關系。在機器人技術三十多年的成長過程中現代控制理論所提供的幾乎所有的設計方法都在機器人上做過應用的嘗試,這些控制方法在建立機器人的數學模型時需要做合理的近似處理,忽略一些不確定性因素。然而,機器人動力學具有高度非線性、強耦合等特點,其不確定的因素客觀存在,這些不確定的未建模部分動態地影響這些理論結果在實際中的應用。如何在模型未知時實現對機器人的控制這一問題的研究對機器人理論的發展和機器人控制理論在實踐中的應用都具有重要的意義。
人工神經元網絡(Artifical Neural Network)是在現代神經學、生物學、心理學等科學領域成果的基礎上產生的,反映了生物神經系統的基本特征,是對生物神經系統的某種抽象、簡化與模擬,是理論化的人腦神經網絡的數學模型,其能夠逼近任意非線性映射的特性,為解決機器人控制問題提供了新的手段。
本文提出一種基于神經網絡機器人模型辨識的迭代學習控制方法。這種方法用神經網絡辨識機器人系統的正向或逆向模型,并消除系統不確定性和外部干擾的影響。仿真表明這種方法效果良好。
2 基于神經網絡模型辨識的機器人迭代學習控制
迭代學習控制方法在解決由于對象存在非線性或建模不良造成的不確定性問題方面具有得天獨厚的優越性。它模仿人類的學習功能,在學習過程中不斷彌補缺乏的先驗知識,進而能使系統的控制性能得到不斷改善。
采用神經網絡辨識機器人的逆向模型,使機器人的關節運動沿迭代軸方向逼近期望軌跡;迭代學習控制器在線學習控制參量,使關節運動沿時間軸方向跟蹤期望軌跡。在每一次的迭代學習過程中,使神經網絡訓練到對模型的辨識達到比較好的逼近精度后,利用神經元網絡的輸出構造下一次迭代學習過程中前饋部分的控制律,再將其與實時反饋控制結合,形成魯棒迭代學習控制算法。
2.1 反饋控制器的設計
用神經網絡的辨識模型近似代替機器人系統的實際模型時,神經網絡必須進行一次或多次在線訓練直至收斂狀態,這影響了控制的實時性。此外,學習控制不一定能保證每次學習時都能補償跟蹤誤差,傳統的反饋控制有助于克服此類問題,所以為了提高系統的抗干擾性能和初始魯棒性,在控制系統中可以引入反饋控制。

引入反饋控制增強了系統的抗干擾性能,提高了系統的魯棒性,從而保證每次學習時都能跟蹤補償誤差。
2.2 神經網絡辨識器設計
機器人非線性自回歸滑動平均模型(
NARMAX模型)的一般形式為
y(t)=f(y(t-1),y(t-2),…,y(t-n);u(t-1),u(t-2),…,u(t-m))
其中,
u(t)和
y(t)分別是系統的輸入和輸出向量;
m和
n為輸入和輸出的最大時延。
f為未知的輸入輸出非線性函數。將上式簡記為
y(t)=f(I(t-1)),其中,
I(t-1)=[y(t-1)[SUP]T[/SUP],…,Y(t-n),…,u(t-1)[SUP]T[/SUP],…,u(t-m)[SUP]T[/SUP]]∈R[SUP]nq+mp[/SUP]
則三層神經網絡結構的
BP神經網絡辨識模型可以表示為

其中,
W代表網絡的權值,
N代表神經網絡輸入輸出映射函數,神經網絡的輸入為
I(t)∈R[SUP]nq+mp[/SUP],網絡的輸出為

,它由
N[SUB]0[/SUB]個輸出神經元構成,可以確定該神經網絡輸出層神經元的個數為
N[SUB]0[/SUB]=q。
對于確定的神經網絡結構,對其進行訓練和學習,找到滿足要求的權值參數,使給定的目標函數最優。通常,找到最優權值比較困難,只能找到真實函數的一個近似。為此,給定一個逼近精度ε>0,只要找到權值
W*使得網絡輸出與期望輸出的誤差小于ε,便認為網絡模型
y(t+1)=N(I(t),W*)是對未知函數的一個逼近。假設神經網絡的辨識誤差是

當此神經網絡經過訓練后,獲得最優權值(
W*)時滿足
‖
f(I(t))-N(I(t),W*
)‖=‖
e[SUB]n[/SUB](t+1)‖≤ε,

,
D為R[SUP]nq+mp[/SUP]上的一個集合。
至此,我們得到了逼近機器人系統的神經網絡模型,將神經網絡的訓練與學習控制結合起來,在第次迭代學習的過程中,使神經網絡學習一定的次數以逼近機器人系統模型。通常以誤差準則

來作為網絡模型逼近機器人系統的標準。g(·)是e(t)的函數,e是定義在[0,r]上的誤差函數,是網絡模型與實際系統的偏差,是網絡模型參數(通常表現為權值)的非線性函數,于是,辨識問題歸結為非線性優化問題。神經網絡具有處理非線性優化問題的能力,且能并行處理信息,速度較快,因此,在神經網絡辨識中采用這種誤差準則。
采用BP算法修整神經網絡的權值和閾值,使誤差性能函數

最小,其中k代表迭代學習的次數,

和

代表實際輸出和網絡模型的輸出,T為神經網絡采樣時間。采用梯度下降法遞推和修正權值

其中β為學習因子,也就是按梯度法搜索的步長,當其取值大時,學習速度就快,但容易引起權值震蕩甚至發散,其取值小時,網絡訓練的時間長,學習速度較慢。α為動量因子,它的大小決定過去權值變化對目前值的影響程度,其作用為記憶上次連接權值的變化方向,抑制系統可能產生的振蕩,起平滑的作用。選擇適當的動量因子,可以降低反傳算法對誤差表面的靈敏度,使網絡避免陷入局部最小點,一般選在0.9左右。γ為網絡訓練次數。
在第k次重復試驗的過程中,權值

隨γ的增加朝最優方向修整,使得辨識模型誤差逐漸減少,當達到給定的逼近精度時便可以結束訓練,得到最優權值

,利用

計算得到網絡的輸出

,用此輸出構造第k+1次迭代學習的前饋作用,與實時反饋作用共同產生控制輸入
2.3機器人控制方案設計
完成神經網絡辨識器以及反饋控制器的設計后,引入迭代學習控制器,完成整個控制方案的設計。整個系統控制框圖如圖1。
[align=center]

圖1 控制系統結構框圖[/align]
迭代學習控制器采用簡單的P型結構,u[SUB]fb[/SUB]、u[SUB]ff [/SUB]分別是由反饋控制器和學習控制器確定的控制律,第k次迭代學習過程中,機器人的迭代學習控制律為

其中

為反饋控制項,k[SUB]p[/SUB]和k[SUB]d[/SUB]為正定的位置和速度增益矩
陣,

是系統的期望軌跡,

是第k次迭代學習過程
系統的實際輸出。

為學習控制項,k[SUB]ILC[/SUB]為學習增益矩
陣,

為第k次迭代學習過程神經網絡的輸出。
前面所用的學習律不能利用其它控制方法得到的先驗知識,對于新的期望軌跡必須重新開始學習,這種學習機制不符合人類的學習行為,這是迭代學習控制難以推廣的重要原因,有關文獻針對于此引入了遺忘因子。遺忘因子的引入抑制了迭代開始時跟蹤誤差的大幅度擺動,對要求跟蹤的新的期望軌跡先利用系統的歷史控制經驗,用神經網絡估計系統的期望輸入,作為迭代學習控制算法的初始控制輸入,再由迭代學習律逐步改善控制輸入,使得只需少數的迭代次數就能達到跟蹤精度的要求,大大提高了系統的學習速度,使所研究的控制方法更具有實用價值。為了實現對期望軌跡y[SUB]d[/SUB](t)的漸近跟蹤,采用改進的學習律:

式中γ為遺忘因子0≤γ≤1,e[SUB]k[/SUB](t)為跟蹤誤差,e[SUB]k[/SUB](t)=y[SUB]d[/SUB](t)-y[SUB]k[/SUB](t)
R(t)為有界學習增益矩陣,R(t)∈R[SUP]mxr[/SUP]
初始修正項γu0(t)可以避免迭代軌跡的大幅度擺動,從而可以加快迭代收斂速度。
3 機器人控制仿真
通過仿真分析機器人系統控制方案效果并與常規機器人PID控制進 行對比。由仿真結果可以看出,基于神經網絡的迭代學習控制收斂速度快、跟蹤精度高,超調小,具有良好的魯棒性和控制性能。
[align=center]

圖2 基于神經網絡模型辨識的迭代學習控制響應曲線

圖3 常規PID控制響應曲線[/align]
迭代學習控制響應曲線、常規PID 響應曲線分別如圖2、圖3所示。仿真曲線縱軸單位為弧度,橫軸單位為秒。
[align=center]

圖4 有干擾輸入無神經網絡辨識器作用響應曲線

圖5 有干擾輸入有神經網絡辨識器作用響應曲線

圖6 迭代學習控制跟蹤誤差輸出曲線[/align]
神經網絡辨識器給出了機器人較為精確的模型并消除系統不確定性和外部干擾的影響神經網絡辨識器作用響應曲線如圖4、圖5、圖6所示。
4 結語
先進的建模與控制技術應用到以機器人為代表的非線性、時變、強耦合對象中去已經成為智能控制方法研究的熱點。隨著智能控制方案的成熟發展,必將加快機器人的應用速度。當然,各種智能控制方案在機器人中的實際應用還需要很長的路要走。