機(jī)遇與挑戰(zhàn)并存,計算機(jī)視覺的黃金時代來臨

時間:2016-10-27

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:10月22日,來自國內(nèi)外人工智能專家及行業(yè)領(lǐng)袖齊聚世界機(jī)器人大會,在其專題論壇2016中國智能機(jī)器人產(chǎn)業(yè)高峰論壇上展開一場別開生面的機(jī)器人和人工智能主題演講,并帶來精彩互動交流。

10月22日,來自國內(nèi)外人工智能專家及行業(yè)領(lǐng)袖齊聚世界機(jī)器人大會,在其專題論壇2016中國智能機(jī)器人產(chǎn)業(yè)高峰論壇上展開一場別開生面的機(jī)器人和人工智能主題演講,并帶來精彩互動交流。

了解到還有很多粉絲不能到場參會,小編特地整理了參會嘉賓微軟亞洲研究院視覺計算組組長、資深計算機(jī)視覺專家華剛的報告速記,讓大家一睹為快。

華剛:大家下午好!今天報告題目是計算視覺的黃金時代,機(jī)遇與挑戰(zhàn)。如果我們看到這個題目,關(guān)鍵字有幾個,第一個是計算機(jī)視覺,第二個黃金時代,第三個第四個機(jī)遇挑戰(zhàn)。

基于這四個關(guān)鍵字給大家講講我的理解和看法。什么是計算機(jī)視覺?學(xué)術(shù)的觀點定義領(lǐng)域的話,計算機(jī)視覺我們從圖象和視頻中間提取數(shù)值和符號計算機(jī)系統(tǒng)。我們說一個愿景能讓計算機(jī)像人類一樣看到并理解圖象,我們認(rèn)為是一個黃金時代回顧一下計算機(jī)視覺真正發(fā)展的歷史。基本上來講計算機(jī)視覺歷史第一個萌芽階段,1955年到1979年的時間,這個領(lǐng)域還是相對比較新的領(lǐng)域。在55年我們對于計算機(jī)視覺提出一個展望,在MIT一個暑期人工智能會議上。我們在三四個月內(nèi)能不能把計算機(jī)視覺工作解決了,直到今天還沒有完全解決。中間經(jīng)歷了很多發(fā)展,在70年代麻省理工真正成立研究小組,開設(shè)第一門計算機(jī)視覺課程。

從今天來講,我們看到會是非常簡單一個圖片,是一些像塊狀的物體,這是MIT第一篇博士論文。稱之為萌芽階段,大家處于一種探索狀態(tài),這個領(lǐng)域怎么走?早期期望說三個月把這個問題解決,甚至40年之后我們?nèi)匀粵]有把這個問題解決。計算機(jī)視覺真正發(fā)展一個非常堅持的基礎(chǔ),應(yīng)該是從21世紀(jì)到80年代的時間,這中間發(fā)生很多時間,在80年代初光學(xué)支付(音譯)識別系統(tǒng),應(yīng)用于商業(yè)應(yīng)用郵局。美國郵局大家利用信件交流方式很多,包括公司各種商業(yè)應(yīng)用,涉及到郵件分檢的問題。

這中間發(fā)生了幾個里程碑事件,包括三維視覺的理論體系基本完備了。到90年代初人臉和語音識別,統(tǒng)計學(xué)識別方法已經(jīng)引入到計算機(jī)視覺上了。計算機(jī)視覺真正爆發(fā)時間,我認(rèn)為從21世紀(jì)10年代中,涉及到幾個方面的因素。第一個我們進(jìn)入互聯(lián)網(wǎng)時代,對于圖象數(shù)據(jù)積累,以及我們對硬件技術(shù)的發(fā)展,我們對攝像機(jī)前端這種硬件設(shè)備技術(shù)也是在日益增進(jìn),包括微軟代表3D設(shè)想傳感器帶來的新的實際應(yīng)用。

如果要從這三個階段中找一個比較代表性的節(jié)點,我認(rèn)為在爆發(fā)階段是深度學(xué)習(xí)模型,它為什么會對計算機(jī)視覺帶來本質(zhì)上的影響和變化。我們更廣泛看計算機(jī)視覺應(yīng)用的話,在這些年產(chǎn)生非常廣泛的應(yīng)用,包括三維圖象的建模,包括監(jiān)控,以及人機(jī)交互產(chǎn)生非常大的影響。為什么處在計算機(jī)視覺黃金時代?我認(rèn)為是一個更多的工作,CVPR是我們計算機(jī)視覺的聯(lián)會。當(dāng)我自己還是一個博士生的時候,去參加CVPR,只有兩家公司招聘,一家公司(桑娜福音譯),一個是西門子。到2016年的時候,有一個網(wǎng)站上千條的工作信息,我們真正這個技術(shù)開始進(jìn)入產(chǎn)業(yè)界。

這個CVPR有更多人參與到這個年會,CVPR今年年會已經(jīng)到3500人參加這個會議,5年前就是1000人左右。最重要我們有更多資金注入進(jìn)來,現(xiàn)在博士畢業(yè)生很輕易拿到一個100萬的年薪工作,今年CVPR將近100家公司占駐這個CVPR,我們看到越來越多的資金流向這個領(lǐng)域。我自己作為CVPR主辦成員之一,我們在會場設(shè)計上我們希望會達(dá)到5000人的規(guī)模。

這里一個朋友,講的一句話,在他36年的從事計算機(jī)視覺研究一個經(jīng)歷中間,從來沒有看到我們這個領(lǐng)域像現(xiàn)在這么好過,他說我們在計算機(jī)視覺第一個黃金時代,以前沒有過。他自己現(xiàn)在也在亞馬遜作為一個保密狀態(tài)工作,在幫亞馬遜做一些事情。黃金時代我們實際上有一些什么樣的機(jī)遇?為什么這個階段產(chǎn)生爆發(fā)性的狀態(tài)。

前面兩位老師提到一些,我們擁有了更多數(shù)據(jù)從各個方面來的。第二個方面,剛才山老師提到我們計算機(jī)視覺很多方法,可能在2、30年前被學(xué)習(xí)過,當(dāng)時計算能力還不夠。第三個就是深度學(xué)習(xí)模型,在微軟研究院同事做的傳感網(wǎng)絡(luò),已經(jīng)做到1001層,在7、8年前不可想象。下面我就展示一下微軟研究院在這個階段我們一些小小的成果。

我們微軟認(rèn)知服務(wù),我們已經(jīng)在上面發(fā)布了非常多的算法API,包括計算機(jī)視覺方面、語音方面、自然語言處理方面包括知識庫方面,還有搜索庫方面。人臉識別方面API,我們在兩年以前人臉識別API已經(jīng)有非常有成功的。Windowshello。我們最近另外一個工作,怎么在圖象和風(fēng)格之間做轉(zhuǎn)換,左邊這個是所謂風(fēng)格的圖,右邊是所謂內(nèi)容圖,我們這個應(yīng)用算法一個目的,我怎么能夠把右邊這張圖渲染成左邊圖的風(fēng)格,實際上我們有一些最新基于深度學(xué)習(xí)一個方法,我們真正試圖去理解怎么描述這種圖象的風(fēng)格。

這里給看到更多的結(jié)果,當(dāng)固定內(nèi)容圖的時候,我們可以把它渲染成不同的風(fēng)格,用同一個網(wǎng)絡(luò)。我們說計算機(jī)視覺黃金時代機(jī)遇在什么地方?我參加他80歲生日一個論壇,非常好的朋友也算他的學(xué)生,馬里蘭一個大學(xué)教授,他就講一個觀點,因為我們講計算機(jī)視覺帶來的影響?第一個觀點,深度學(xué)習(xí)模型就像一個和面機(jī)一樣,你把很多東西放進(jìn)去它出來非常好吃的東西。它是一個非常好的東西,我們要利用好它。它是一個讓眾生變的平等的東西。我雇了兩個高中生,編程能力很強(qiáng),在計算機(jī)視覺方面很低,不管你有一年的經(jīng)驗,還是多年經(jīng)驗,讓它飛固然是好的模型。因為涉及到很多觀點,媒體朋友不要隨便轉(zhuǎn)載這些觀點,讓大家有一個體會。

涉及到黃金時代機(jī)遇什么?實際上把這個技術(shù)門檻降低不少,現(xiàn)在很多人不需要經(jīng)過10年的訓(xùn)練能去做一些計算機(jī)視覺應(yīng)用,或者是技術(shù)。所以我認(rèn)為這實際上是產(chǎn)業(yè)界一個機(jī)遇。產(chǎn)業(yè)界很少有人去愿意走40步的。實際上從產(chǎn)學(xué)研角度來講,這個學(xué)界應(yīng)該還是更多去開創(chuàng)一些新的研究領(lǐng)域,能夠做一些更好的事情。

黃金時代另外一個機(jī)遇就是創(chuàng)業(yè)、創(chuàng)業(yè),我們很多老師已經(jīng)創(chuàng)業(yè)了,像山老師,像朱瓏一直學(xué)術(shù)方面走的比較多的意圖,當(dāng)我看到山老師公司的時候,是一個中英文混合體,山老師到底是看他還是看他,我不太明白。一個是人臉識別,一個是自動駕駛,人臉識別目前離實際應(yīng)用最近一個,而且各個方面產(chǎn)生實際應(yīng)用也是非常好的過程。我們遇到挑戰(zhàn)什么?其實這么多年計算機(jī)視覺一直試圖大家問自己一個問題,什么是計算機(jī)視覺殺手級應(yīng)用?它是人臉識別嗎?還是安防監(jiān)控,還是輔助醫(yī)療圖象診斷,我想大家沒有回答,更多是摸索和探索。至于自動駕駛,我們還是保守推動這個行業(yè),不要寒冬。我們還要小心謹(jǐn)慎一樣,不要讓殺手級應(yīng)用真正變成殺手應(yīng)用。

另一方面,這個問題不僅在中國存在,其實在美國很多大學(xué)里面教授,做計算機(jī)視覺方面很多進(jìn)了公司,或者自己出來創(chuàng)業(yè)。大家問一個問題,這些教授創(chuàng)業(yè)和進(jìn)了產(chǎn)業(yè)界,誰來培養(yǎng)下一代的學(xué)生,這個問題值得思考。

最后自己關(guān)于計算機(jī)視覺思考,這三個方面。第一個方面,為什么深度學(xué)習(xí)對計算機(jī)視覺好用?實際上大家如果在計算機(jī)視覺領(lǐng)域,計算機(jī)視覺本質(zhì)是解不適定的問題。第二個深度學(xué)習(xí)本質(zhì)上提供了用前饋的模型解反問題的框架。這是一個非常在高層面上一個理解的解釋,本質(zhì)上解這種不好的反問題的時候,我們有了反問題的框架。我自己對整體上的方法非常欣賞,但是自己還有一些領(lǐng)域的知識放在里面。

第二個,計算機(jī)視覺發(fā)展到今天,40年前從人工智能科學(xué)研究共同體分離出來有一個原因,40年前人工智能,包括語音識別,包括計算機(jī)視覺技術(shù)沒有成熟。2010年計算機(jī)視覺、自然語言處理,語音識別這些技術(shù)發(fā)展到一定程度,天下大勢,分久必合,合久必分,大家思考一個問題,最終人工智能方面技術(shù)我們怎么能夠集合到一起,為綜合人工智能系統(tǒng)服務(wù)。

最后講,計算機(jī)視覺產(chǎn)學(xué)研一個互動。這個問題很簡單,本質(zhì)上認(rèn)為所謂互動三個要素一個流通,研究人員、資金和技術(shù),這個方面做的比較好,大家可以關(guān)注一下微軟亞洲研究院博士生和學(xué)生培養(yǎng)的工作,我們計算科學(xué)的研究十幾年歷史,跟各個高校聯(lián)合博士培養(yǎng)一個項目,這個學(xué)校的學(xué)生可以在我們研究院做五年的學(xué)習(xí),拿到博士學(xué)位。包括給學(xué)校提供資金上的支持,在座有很多出來創(chuàng)業(yè)或者是產(chǎn)業(yè)界,還是想我們在人工智能產(chǎn)業(yè)上我們從中得到一些東西,還想到回饋給這個領(lǐng)域。謝謝大家!

更多資訊請關(guān)注機(jī)器視覺頻道

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.hysjfh.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運(yùn)動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點贊 0
取消 0