今年的CVPR會議在拉斯維加斯舉辦(CVPR即IEEE國際計算機視覺與模式識別會議,是三大計算機視覺國際級會議之一),國內計算機視覺領域的公司如百度、商湯科技、圖森科技等都參會并發表論文。學界和業界的研究表明,計算機視覺已經發展到從模擬人類行為到輔助人類生活,再到幫助人類探索未知的階段。
計算機將理解人類手勢
如果給人類播放一段靜音的《守望先鋒》游戲戰斗視頻,即使是新手玩家也能根據畫面想象出游戲的種種音效,甚至能夠輕易依據某為英雄的動作反映出一句臺詞——“午時已到”,并對這些音效進行簡單地模擬。
但對于計算機來說,這并非一件易事。在CVPR2016會議現場,來自麻省理工學院的研究人員就展示了一向“視頻生成聲音”的技術。科學家向VIS輸入包括46000種聲音在內的1000段視頻對其進行訓練,并通過深度學習算法對聲音進行解構,隨后系統便會給靜音視頻配上一段它認為正確的音效。據研究人員現場介紹,計算機所模擬出的聲音足以以假亂真,在此前的測試中便曾多次讓人類信以為真。
能夠正確理解人類手部動作,同樣是人工智能感知世界的重要任務。人類可以輕易地判斷“OK”或“豎起”大拇指等手勢所代表的意義,但對于計算機視覺來說,這項任務仍然處于比較早期的階段。
商湯科技高級研發工程師錢晨表示,手部姿態估計的難點,分為兩部,第一部手掌整體的姿態;第二步是手指的姿態。因為手的外觀和手指的姿態相關,在不知道手指的情況下,去估計手掌的姿態并不容易,近鄰搜索的方法耗時太久。而普渡大學的DeepMind技術將深度學習和近鄰搜索相結合,通過深度學習,將輸入映射到低維向量和類別,快速地找出手掌的姿態參數,再通過類別差異回歸算法來估計手指的姿態。手掌姿態估計比傳統的直接回歸精度提高很多。手部姿態估計作為整個手勢研究的組成部分,在實時估計的前提下,精度越高,手部動作識別的技術距離實用會越來越近,應用場景也會越來越廣,對VR、游戲產業大有裨益。
無人駕駛行業將迎來變革
輔助/自動駕駛可以算是當下學界與工業界結合非常緊密、成果實踐性強、討論熱度極高的一個領域。在人工智能逐漸理解人類世界之后,輔助人類的日常生活,便成為了其“理所應當”的工作。
以色列知名公司MobileEye聯合創始人AmnonShashua認為,在2017年,高速自動續航功能將會普及,2018年到2020年,高速路上的自動駕駛將會普及,到2021年,部分都市區域會實現無人駕駛,而2023年,無人駕駛就能全部實現。
國內專門研究輔助駕駛的圖森科技CTO侯曉迪認為,輔助駕駛、自動駕駛在中國和在歐美國家的現實差別很大,學界研究的相關技術均在一定程度上無法適用于中國的交通現狀:在中國的駕駛場景中,司機不遵守交通規則的比例要遠大于美國;道路線的整潔程度、道路標識是否清晰,甚至是否存在,中國城市修路頻率次數繁多;中國道路的擁擠程度也不能很好地應用國外算法;在美國,自動駕駛技術如果需要取代人類出租車司機,只需將成本控制在10美元之下,但在中國就需要成本壓得更低。
侯曉迪稱,學術圈的歐美城市路況數據集較為齊全,甚至會有很多小城市數據集,但并沒有針對中國的路況數據集,初創公司打造自己數據庫的難度極大;中國高精度地圖水平和國際先進水平存在差距。
更多資訊請關注汽車制造頻道