我們發現,機器人現在需要有一個根本性的進化,這就是逐漸從精確性進入到了靈巧性。新的應用需求要處理不確定性,處理不完全信息,具體表現為非結構化環境,這些需求和現有技術比較還是有一點差距的。
陳小平教授曾任2015年世界人工智能大會機器人領域主席,2008年、2015年兩年的機器人世界杯及學術大會主席。在2016年獲得IEEEROBIO大會最佳論文獎,同時還獲得了國務院政府特殊津貼,是中科大杰出研究校長獎獲得者。
陳小平教授從精確性和靈巧性兩個方面深入分析了機器人過去取得的成就,及將來面臨的挑戰。以下是陳教授在機器人大講堂的演講實錄(為使文章簡介規范,略有改動):
機器人靈巧性:需求推動的技術變革
機器人從精確性向靈巧性轉變
對于機器人的發展,我們一方面結合國家戰略需求和市場的需求研發機器人;另一方面,根據我們了解的全球機器人技術都取得了什么樣的成果,能夠支撐什么樣的應用,來衡量技術的有效性。當把兩個方面放在一起時,我們發現,機器人現在需要有一個根本性的進化,這就是逐漸從精確性進入到了靈巧性。
回顧一下機器人產業的歷史。1961在通用汽車生產線上用了工業機器人,到現在56年了。人工智能領域到現在已經做了60多年,取得的成果國內比較關注的是阿爾法狗,但西方民眾開始重視人工智能是在1997年,當時IBM的深藍戰勝了十年棋王卡斯特羅夫。
所以,對西方人來說,他們感受到人工智能超過人的時間比我們早20年。但是為什么工業機器人能夠成功,而所謂的智能機器人到現在還不成功?
工業機器人回顧
其實工業機器人是比較簡單的,其硬件本體基于關節-連桿機構,用運動學來計算關節的角度,保證機械臂的末端能夠達到指定的位置。這很容易給人帶來一個誤區,覺得機器人的成功完全是因為機械臂的精確性,其實不是這樣的。
近幾年我們到很多生產現場去實地學習,發現生產線上還需要大量輔助設備,其中一種叫夾具。夾具相對于機器人來說古老得多,這個領域有很多成熟的技術。一般來說,在國內,一條生產線只有1/3到1/5的開支是機械臂的,其它的都是這些輔助設備的,包括夾具的。
在國外,他們的加工精度更高,所以他們輔助裝備的開支占比更大,只有1/5到1/8是機械臂,其它都是輔助設備的。我們這樣全面的一看才發現:工業機器人能夠成功,并不是單純的因為機械臂的精確性,還要加上環境的精確性。
環境怎么能精確?必需經過精確化改造,也就是說造一條生產線,以保證生產線上的每一個操作對象(如工件)在任何時刻都被精確定位,使得機械臂和其他加工設備可以精確地進行操作。這才是工業機器人的一個完整圖像。
傳統主流控制策略
工業機器人背后的技術主要是控制技術。傳統的主流控制技術有四種:優化控制、適應性控制、Robust控制,這三種都試圖讓機器人有一定的靈活性或者靈巧性,第四種叫分層控制。當問題太復雜了,就需要分層控制了。
各種傳統控制策略背后的原理,其實就兩種。
第一種是基于決策論的精確控制,也就是基于馬爾可夫決策過程理論的控制原理。這種原理對問題做了一個抽象,把實際問題抽象為狀態集、行動集、回報函數和概率轉移函數四個基本構件。在這套基本構件的基礎上,引入一些數學規劃的方法。首先定義值函數,值函數是評價一個動作的價值的。
值函數怎么計算?原始的辦法是用貝爾曼公式,后來有很多種改進的計算辦法。有了值函數,就可以計算最優策略,從而決定在什么狀態下執行什么策略最好。決策論的一個基本要素是概率轉移函數,概率轉移函數在馬爾可夫決策里扮演了關鍵性的角色,后面的值函數和最優策略求解,都依靠概率轉移函數,沒有它后面的事情都干不了。
這套體系在理論上有很多成果,但在實際應用中,根據我們的觀察和了解,得到一個大規模實際問題的可實用的概率轉移函數是非常困難的,鮮見成功實例。也就是說,這套理論假定了一種數學機制,但那個機制在大規模實際問題中通常是得不到的。
那么,工業機器人實際上是怎么干的?就是用運動學和動力學來簡化決策論模型,關鍵是把概率轉移函數給取代了,這樣就沒問題了。這樣做的效果是達到了精確性,但很大程度上喪失了靈巧性,因為在馬氏決策論體系中,沒有概率就無法表達不確定性。因此,在工業上實際我們用的是運動學、動力學這套辦法。
還有一種是基于模糊數學的模糊控制。模糊數學也可以用一段話來概括,核心思想是用實數區間[0,1],即用連續統上的分類/建模替代二值布爾分類/建模。比如講臺邊緣能精確測量嗎?不能。那么按照模糊數學,對桌面邊緣上的每一點,給它一個隸屬度。
比如給它1,表示這一點肯定在桌面上;給它0,肯定不在桌面上;其他情況,用隸屬度大小表示在桌面上的模糊度。隸屬度和馬氏決策論中的概率轉移函數一樣,對于大規模實際問題很難得到實用化的隸屬度。
1997年,IBM的深藍打敗了卡斯帕羅夫,當時西方人和我們看到阿爾法狗打敗李世石是一樣的,感覺天都塌了。深藍的核心技術是前瞻至少14步,對前瞻得到的棋局用專家的知識做判斷,選擇最有利的走步。這么簡單的辦法計算量非常大,所以用了人工智能的一種技術叫剪枝,把前瞻棋局減到了600億個,但還是算不過來。
人工智能硬件什么時候開始做?深藍就開始做了,不是現在才做。許峰雄做了專用的芯片,計算國際象棋棋局的評價,一秒鐘算5億個棋局,600億個棋局5分鐘就算完了,可以用于比賽實戰。這套技術看上去很簡單,但是意義非常重大,我把它的意義總結為“許峰雄不等式”:
人工智能+專家+高性能計算>頂級專家
其中“人工智能”就是搜索技術、剪枝技術,高性能計算就是那些芯片,專家是加入深藍小組的一些國際象棋大師級棋手。所以,這件事意義非凡,這是人類歷史上第一次人工智能在復雜博弈問題上戰勝人類。在這一點上,深藍的貢獻超過了阿爾法狗。
下面就到圍棋了,看一下阿爾法狗是怎么做的。兩個所謂的“大腦”就是兩個神經網絡。這樣一說其實又容易給我們造成一些誤區,好像阿爾法狗技術跟以前的人工智能博弈沒有關系,其實不是的。
這兩個網絡在理論上都是我前面跟各位介紹的決策論模型中的東西,都是馬爾可夫決策里面的東西。但是它是有創新的,通過引進機器學習技術,直接學習Policynetwork和Valuenetwork,繞過了概率轉移函數,直接學出了回報函數,根本不去學概率轉移矩陣。
也就是說,現在阿爾法狗也還是學不了概率轉移矩陣,所以它繞過去了。但新聞報道里沒有人說這個事,說的都是深度學習。其實深度學習技術支撐了阿爾法狗的理論創新。
我們分析人工智能獲得成功的領域,發現都有一些共同的特征,一個是確定性的,比如下棋就是確定的,一個子落在哪里不能含糊。還有一個是規則化,下棋一定是有明確規則的。第三,環境也是結構化的。在這三個條件成立的場景中,人工智能已經可以超過人。但三個條件之一不成立,人工智能就不行了。
當然我們也得留一個尾巴,做阿爾法狗的公司是不是有一些沒有公布的東西,而那些東西能夠超越這三個要求,超越固定性、規則性和結構化的局限仍然可以戰勝人類?如果有這樣的技術,那是非常強大的,同時也就變得非常危險。但目前我們看到的已經公開的技術是無法超越的,現有成果是在這三個條件下的科技創新。
機器人應用的新需求
既然是有條件的,在這些條件下,這些新的智能技術能不能用來滿足機器人應用的新的需求?舉幾個例子。一個是家庭服務機器人,這張圖是服務機器人的比賽,現在服務機器人還沒有在家庭里應用。
這張圖里有一個人在家里摔倒了,你不知道摔在什么地方,沒有夾具把他夾住的,機器人要去找,要觀察他是不是真的倒了,倒的是一個人還是一條狗。找到以后先通過對話詢問,你感覺好不好?是自己累了在地上躺著休息休息,還是需要我幫助?如果需要幫助,需要什么幫助?是需要拿藥,還是抱起來?抱起來現在還不容易做到。
這個比賽顯然跟工業機器人完全不一樣,環境沒有精確化,環境中的對象都得靠機器人自己去感知,而且是變化的,比如人每次摔倒的位置可能都不一樣。所以家庭應用真的是挺難的,但確實是人類所需要的。
還有一個更難一點的應用,即救援機器人,救援比在家庭里提供服務更復雜。你執行了一個動作,這個動作的結果是什么?你事先是不知道的,沒有辦法確定的。很多復雜的環境因素決定了行動的結果。這就是所謂的“不確定性”。當前國際人工智能最大的挑戰就在于不確定性問題。救援就是不確定性問題的一個非常好的例子。
精確性-靈巧性譜系
這張圖中,工業機器人具有最大的精確性,最少的靈巧性。再看手術機器人,它和工業機器人不是同類,卻也很成功,為什么?因為手術機器人也是主要靠精確性的,靈巧性很少。手術前醫生為患者打麻藥,再捆皮帶,確保患者在手術過程中不會亂動,而且很多手術機器人是人來操作的,這樣就多了一些靈巧性。
最右邊是家庭服務機器人,需要很大的靈巧性。在它的右邊是救援機器人,救援機器人我都沒畫到圖里。農業機器人比家庭機器人需要的靈巧性要少一些,精確性稍微多一些。這樣一看,農業機器人的投資方向非常好。
因為農作物在播種前可以對田地做一些安排,所以農業生y產其實是一個半結構化環境,因此農業機器人難度是比較低的。智能制造需要更多的精確性,相對少一點的靈巧性。智能制造精確性和靈巧性都需要的比較多,所以比農業機器人還要更難一點。
最有意思的是中間的自主無人駕駛汽車,出來兩條線,左邊一條線需要比較多的精確性,這代表自主駕駛的理想狀態,包括兩個方面的要求。一個是路況和所有的交通標識,要求自動駕駛所需要的交通標識都能夠被無人車傳感器得到。
另一個是周圍其他的車輛和行人都遵守交規。這兩個條件都滿足了,無人車是很簡單的,現在的技術就能實現。但實際上這兩個條件很難滿足,特別是在中國,不遵守交規的太多了,有的地方交通標識也不是很清晰,有的被破壞了。這就是現實狀態,需要很大的靈巧性(靈敏性、靈活性)。所以在中國做全自主無人車是非常了不起的。
機器人新應用挑戰
傳統機器人依靠精確性,新的人工智能依賴確定性。我們面臨新的應用,需要用靈巧性處理不確定性。這是新的應用需求對我們提出的主要挑戰。我們如果能在技術上對這種挑戰想出一些好的辦法,或者在工程上想出好的辦法,那就可以滿足新的應用需求。
需求是“家”,技術是“回家”的路。新的應用和老的應用是什么關系?老的應用相當于我們過去的“家”,新的應用相當于我們有了一個新“家”。但是人都有路徑依賴性,我們不自覺的就會往老路上走。所以,現在大部分機器人的研發都是立足于精確性技術途徑的。我理解這是一種路徑依賴性。
針對我們面臨的挑戰,中科大發展了一套靈巧性技術。這里用一個例子加以說明。
假設想讓機器人給我送一杯水,放桌邊,離我越近越好。但是,由于存在感知誤差和操作誤差,在誤差區域內是不能放東西的,那我們就不在那個區域放。所以在很多應用里,特別是在很多新的應用里,是不需要太精確的,有些危險的區域避開就行了。
我們提出了一個框架:全局有一個粗略模型,機器人先按照粗略模型做一個全局決策,在執行全局決策的過程中根據任務需要進行局部觀察,對全局的決策做局部調整,這樣就不需要對桌面形狀、邊緣做精確的度量和建模,就能完成靈巧操作。
我們做過一個實驗,用可佳機器人來操作微波爐,加熱食品,整個過程都是機器人獨立完成的,現在世界上還沒有第二個團隊完整實現過。這個實驗和背后的技術體系也得過不少獎。最近我們提出了一個新的框架,將精確性和靈巧性相結合,再加上局部的深度強化學習。我們用新的框架重新開發了系統,開發效率大大提升了。
總結
當前我們所處的歷史階段,一個是工業機器人大規模的應用,已經成功了半個世紀。二是人工智能研究了半個世紀,現在也有一些新的發展,特別是以深度學習為代表的新技術達到了非常高的水平。
新的應用需求要處理不確定性,處理不完全信息,具體表現為非結構化環境,這些需求和現有技術比較還是有一點差距的。不是說深度學習出來了以后,馬上就能解決我們所有實際問題,其實不能完全解決。但是,如果我們轉到靈巧性,轉到以靈巧性為核心的技術體系,現有的很多技術可以組合起來,那就能達到很好的效果。